Data Science Minimum: 10 Essential Skills You Need to Know to Start Doing Data Science
Shar
This article is a translation of the original that appears on KDnuggets: Data Science: Essential Skills You Need to Know to Start Doing Data Science
Thank you very much for allowing its publication in Spanish.
Muchas gracias por permitir su publicación en español.
Lo fundamental en la ciencia de datos: 10 habilidades esenciales que
necesita saber para empezar a utilizar la ciencia de datos
Shar
Etiquetas: Algorithms, Communication, Data Preprocessing, Data
Science, Data Science Skills, Data Visualization, Ethics, Mathematics, Python, R
La ciencia de datos está en
constante evolución, por lo que dominar las habilidades técnicas y sociales
básicas le ayudará a tener éxito en su carrera como científico de datos, así
como abordar conceptos avanzados, como el aprendizaje profundo y la
inteligencia artificial.
Autor: Benjamin
Obi Tayo, Ph.D., DataScienceHub.
La
ciencia de datos es un campo tan amplio que se puede dividir en varios
apartados como son la preparación y exploración de datos, representación y
transformación de datos, visualización y presentación de datos, análisis
predictivo y aprendizaje automático, etc. Para los principiantes, es natural
plantearse la siguiente pregunta: ¿Qué habilidades necesito dominar para
convertirme en científico de datos?
En este artículo se presentarán 10
habilidades esenciales necesarias para los científicos de datos en la práctica.
Estas habilidades pueden agruparse en 2 categorías, a saber, habilidades tecnológicas (matemáticas y
estadística, codificación, preprocesamiento y manipulación de datos,
visualización de datos, aprendizaje automático y habilidades para tratar
proyectos del mundo real) y habilidades
blandas (habilidades de comunicación, aprendizaje permanente, habilidades
de para jugar en equipo y habilidades éticas).
La ciencia de datos es un campo en constante evolución, sin embargo,
dominar sus fundamentos le proporcionará los antecedentes necesarios que
necesita para abordar conceptos avanzados como son el aprendizaje profundo, la inteligencia
artificial, etc. Este artículo presentará 10 habilidades esenciales para científicos
de datos en la práctica.
1. Habilidades en matemáticas y estadística
(i) Estadística y cálculo de probabilidades
La estadística y el cálculo de probabilidades se utilizan para la
visualización de características, el preprocesamiento de datos, la transformación
de características, la imputación de datos, la reducción de dimensionalidad, la
ingeniería de características, la evaluación de modelos, etc. Estos son los
temas con los que debe estar familiarizado:
a) Media
b) Mediana
c) Moda
d) Desviación/varianza
estándar
e) Coeficiente de
correlación y matriz de covarianza
f) Distribuciones
del cálculo de probabilidades (Binomial, Poisson, Normal)
g) Valor de p
h) ECM (error
cuadrático medio)
i) Puntuación R2
j) Teorema de Bayes
(precisión, sensibilidad, valor predictivo positivo, valor predictivo negativo,
matriz de confusión, curva ROC)
k) Prueba A/B
l) Simulación Monte
Carlo
(ii) Cálculo de varias variables
La mayoría de los modelos de aprendizaje automático se crean con un
conjunto de datos que tiene varias características o predictores. Por lo tanto,
la familiaridad con el cálculo multivariable es extremadamente importante para
crear un modelo de aprendizaje automático. Estos son los temas con los que debe
familiarizarse:
a) Funciones de
varias variables
b) Derivadas y
gradientes
c) Función por
pasos, función sigmoide, función logit, función ReLU (Rectified Linear Unit)
d) Función de
coste
e) Trazado de
funciones
f) Valores máximo
y mínimo de unafunción
(iii) Álgebra lineal
El álgebra lineal es la habilidad matemática más importante en el
aprendizaje automático. Un conjunto de datos se representa como una matriz. El
álgebra lineal se utiliza en el preprocesamiento de datos, la transformación de
datos y la evaluación de modelos. Estos son los temas con los que debe
familiarizarse:
a) Vectores
b) Matrices
c) Traspuesta de
una matriz
d) Inversa de una
matriz
e) Determinante
de una matriz
f) Producto
escalar
g) Eigenvalores
h) Eigenvectores
(iv) Métodos de optimización
La mayoría de los algoritmos de aprendizaje automático realizan
modelos predictivos minimizando una función objetivo, aprendiendo así los pesos
que se deben aplicar a los datos de prueba para obtener las etiquetas
predichas. Estos son los temas con los que debe familiarizarse:
a) Función coste /
Función objetivo
b) Función de
verosimilitud
c) Función error
d) Algoritmo de
descenso de gradiente y sus variantes (por ejemplo el el algoritmo de descenso
de gradiente estocástico)
Obtenga más información sobre el algoritmo de descenso de gradiente
aquí: Machine Learning: How the Gradient
Descent Algorithm Works.
2. Habilidades esenciales en programación
Las habilidades de programación son esenciales en la ciencia de datos.
Dado que Python y R se consideran los dos lenguajes de programación más
populares en la ciencia de datos, el conocimiento esencial en ambos lenguajes
es crucial. Algunas organizaciones pueden requerir solo habilidades en R o
Python, no en ambos.
(i) Habilidades en Python
Familiarícese con las habilidades básicas de programación en Python.
Estos son los paquetes más importantes de los que debe dominar su uso:
a) Numpy
b) Pandas
c) Matplotlib
d) Seaborn
e) Scikit-learn
f) PyTorch
(ii) Habilidades en R
a) Tidyverse
b) Dplyr
c) Ggplot2
d) Caret
e) Stringr
(iii) Habilidades en otros lenguajes de programación
Algunas organizaciones o industrias pueden requerir habilidades en los
siguientes lenguajes de programación:
a) Excel
b) Tableau
c) Hadoop
d) SQL
e) Spark
3. Habilidades en preprocesamiento
y manipulación de datos
Los datos son clave para cualquier análisis en ciencia de datos, ya
sea análisis inferencial, análisis predictivo o análisis prescriptivo. El poder
predictivo de un modelo depende de la calidad de los datos que se utilizaron
para crear el modelo. Los datos vienen en diferentes formatos, como texto,
tabla, imagen, voz o video. Muy a menudo, los datos que se utilizan para el
análisis deben extraerse, procesarse y transformarse para convertirlos en una
forma adecuada para un análisis posterior.
i) Manipulación de datos:
El proceso de manipulación de datos es un paso fundamental para cualquier
científico de datos. Muy rara vez se puede acceder fácilmente a los datos en un
proyecto de ciencia de datos para su análisis. Es muy probable que los datos
estén en un archivo, una base de datos o se extraigan de documentos como
páginas web, tweets o archivos PDF. Saber cómo manipular y limpiar los datos le
permitirá obtener información crítica de sus datos que de otro modo estarían
ocultos.
ii) Preprocesamiento de
datos: El conocimiento sobre el preprocesamiento de datos es muy importante
e incluye temas como:
a) Tratamiento de datos ausentes
b) Imputación de datos
c) Manejo de datos categóricos
d) Etiquetas de clase de cosificación para tratar problemas de
clasificación
e) Técnicas de transformación de características y reducción de la dimensionalidad,
tales como el análisis de componentes principales (Principal Component Analysis
(PCA)) y el análisis de discriminación lineal (Discriminant Analysis (LDA)).
4. Habilidades en visualización de
datos
Hay que comprender los componentes esenciales de una buena
visualización de datos.
a) Componente de datos:
Un primer paso importante para decidir cómo visualizar los datos es saber qué
tipo de datos son, por ejemplo, datos categóricos, datos discretos, datos
continuos, datos de series de tiempo, etc.
b) Componente geométrico: Aquí
es donde usted decide qué tipo de visualización es adecuada para sus datos, por
ejemplo, diagrama de dispersión, gráficos de líneas, diagramas de barras,
histogramas, gráficos q-q, densidades suaves, diagramas de caja, diagramas de
pares, mapas de calor, etc.
c) Componente de mapeado: Aquí
debe usted decidir qué variable usar como su variable x y como variable y. Esto
es importante, especialmente cuando su conjunto de datos es multidimensional
con varias características.
d) Componente de escala: Aquí
usted decide qué tipo de escalas utilizar, por ejemplo, escala lineal, escala
logarítmica, etc.
e) Componente de etiquetas:
Esto incluye cosas como etiquetas de eje, títulos, leyendas, tamaño de la
fuente a utilizar, etc.
f) Componente ético: Aquí,
desea asegurarse de que su visualización cuente la historia real. Debe ser
consciente de sus acciones al limpiar, resumir, manipular y producir la
visualización de datos y asegurarse de que no está usando su visualización para
engañar o manipular a su audiencia.
5. Habilidades básicas en
aprendizaje automático
El aprendizaje automático es una rama muy importante de la ciencia de
datos. Es vital comprender la estructura del aprendizaje automático:
elaboración de problemas, análisis de datos, creación de modelos, pruebas y
evaluación y aplicación de modelos. Obtenga más información sobre el marco de
aprendizaje automático desde aquí: The Machine Learning Process.
Los siguientes
son algoritmos importantes de aprendizaje automático con los que debe
familiarizarse.
i) Aprendizaje
supervisado (predicción de variable contínua)
a) Regresión
Básica
b) Análisis de
multiregresión
c) Regresión
regularizada
ii) Aprendizaje supervisado (predicción de variable discreta)
a) Clasificador
de regresión logística
b) Clasificador
de máquina de vectores de soporte
c) Clasificador
de K vecinos más próximos (KNN)
d) Clasificador
de árbol de decisiones
e) Clasificador
de bosque aleatorio
iii) Aprendizaje no supervisado
a) Algoritmo de
agrupamiento KMeans
6. Habilidades para finalizar proyectos de ciencia de datos del mundo
real
Las habilidades adquiridas solo con el trabajo del curso no lo
convertirán en un científico de datos. Un científico de datos cualificado debe
poder mostrar la evidencia de la finalización con éxito de un proyecto de
ciencia de datos del mundo real que incluye todas las etapas de la ciencia de
datos y el proceso de aprendizaje automático, como la definición de problemas,
la adquisición y análisis de datos, la creación de modelos, las pruebas de modelos,
la evaluación de modelos y su implementación. Los proyectos de ciencia de datos
del mundo real se pueden encontrar en las siguientes referencias:
a) Proyectos Kaggle
b) Puestos de interno
c) En entrevistas
7. Habilidades en comunicación
Los científicos de datos deben poder comunicar sus ideas a otros
miembros del equipo o a los gestores comerciales de la organización. Las buenas
habilidades de comunicación jugarían un papel clave aquí para poder transmitir
y presentar información muy técnica a personas con poca o ninguna comprensión
de los conceptos técnicos en ciencia de datos. Las buenas habilidades de
comunicación ayudarán a fomentar una atmósfera de unidad y unión con otros
miembros del equipo, como son los analistas de datos, ingenieros de datos,
ingenieros de campo, etc.
8. Sea siempre un aprendiz
La ciencia de datos es un campo en
constante evolución, así que prepárese para adoptar y aprender nuevas
tecnologías. Una forma de mantenerse en contacto con los desarrollos en este
campo es establecer una red con otros científicos de datos. Algunas plataformas
que promueven la creación de redes son LinkedIn, GitHub y Medium (publicaciones
Towards
Data Science y Towards AI). Las
plataformas son muy útiles para obtener información actualizada sobre
desarrollos recientes en el campo.
9. Habilidades como jugador de equipo
Como científico de datos, trabajará en un equipo formado por analistas
de datos, ingenieros, gerentes, por lo que necesita buenas habilidades de
comunicación. También debe ser un buen oyente, especialmente durante las
primeras fases de desarrollo del proyecto, donde debe confiar en ingenieros u
otro personal para poder diseñar y formular un buen proyecto de ciencia de
datos. Ser un buen jugador de equipo le ayudará a prosperar en un entorno
empresarial y a mantener buenas relaciones con otros miembros de su equipo, así
como con los gerentes o directores de su organización.
10. Habilidades éticas en ciencia de datos
Comprenda las implicaciones de su proyecto. Sea sincero con usted
mismo. Evite manipular datos o usar métodos que produzcan sesgos en los
resultados de forma intencionada. Sea ético en todas las fases, desde la
recopilación y el análisis de datos hasta la creación, el análisis, las pruebas
y la aplicación de modelos. Evite crear resultados con el propósito de engañar
o manipular a su audiencia. Sea ético cuando interpreta los hallazgos de los proyectos
de ciencia de datos.
En resumen, hemos analizado 10 habilidades esenciales necesarias para
los científicos de datos en ejercicio. La ciencia de datos es un campo que está
en constante evolución, sin embargo, dominar los fundamentos de la ciencia de
datos le proporcionará los conocimientos necesarios para abordar conceptos
avanzados como el aprendizaje profundo, la inteligencia artificial, etc.
Original. Publicado de
nuevo con permiso.
Enlaces relacionados:
·
Modern Data Science Skills: 8 Categories, Core Skills,
and Hot Skills
·
These Data Science Skills will be your Superpower
·
Top 5 must-have Data Science skills for 2020
No comments:
Post a Comment