If I had to start learning Data
Science again, how would do it?
This article is a translation of
the original that appears on KDnuggets: If I had to start learning Data
Science again, how would do it?
Thank you very much for allowing its publication in Spanish.
Muchas gracias por permitir su publicación en español.
Si tuviera que empezar a aprender sobre la ciencia de datos, ¿cómo lo
haría?
Share
Si bien existen diferentes opciones
para aprender desde el principio la ciencia de datos, el enfoque adecuado para
cada persona debe basarse en cómo aprender mejor. Un método efectivo es hacer
evolucionar el aprendizaje desde una práctica simple a bases complejas, como se
describe en esta ruta de aprendizaje recomendada por un físico que se convirtió
en un científico de datos.
Por Santiago Viquez, físico
convertido en científico de datos, creador de datasciencetrivia.com.
No hace mucho, me
dio por pensar que si tuviera que empezar a aprender el aprendizaje automático
y la ciencia de datos de nuevo, ¿por dónde empezaría? Lo curioso fue que el trayecto
que imaginé era completamente diferente al que realmente hice cuando empecé a
estudiarlos.
Soy consciente de
que cada uno aprende a su manera. Algunos prefieren los videos, otros lo hacen
mejor con los libros y muchas personas necesitan pagar por un curso para
sentirse más motivadas. Y eso está bien porque lo importante es aprender y
disfrutar haciéndolo.
Entonces, desde
mi punto de vista y sabiendo cual es la forma en la que aprendo mejor, he
diseñado este itinerario para el caso en el que tuviera que comenzar a aprender
de nuevo la ciencia de datos.
Como se puede ver,
mi forma favorita de aprender es ir de lo simple a lo complejo gradualmente.
Esto significa comenzar con ejemplos prácticos y luego pasar a conceptos más
abstractos.
Microcursos de Kaggle
Sé que puede
parecer extraño comenzar de esta forma, ya que muchos preferirían empezar con
fundamentos más sólidos y con videos de matemáticas para comprender
completamente lo que está sucediendo detrás de cada modelo de aprendizaje
automático. Pero desde mi perspectiva, comenzar con algo práctico y concreto
ayuda a tener una mejor visión de la imagen completa.
Además, la
duración de estos microcursos es de alrededor de 4 horas, por lo que cumplir
con esos pequeños objetivos por adelantado agrega un impulso de motivación
adicional.
Microcurso de Kaggle: Python
Si está
familiarizado con Python, puede omitir esta parte. Aquí aprenderá conceptos
básicos de Python que le ayudarán a comenzar a aprender la ciencia de datos.
Habrá muchas cosas sobre Python que seguirán siendo un misterio. Pero a medida
que avancemos, lo aprenderá con la práctica.
Precio: gratis
MIcrocurso de Kaggle: Pandas
Pandas nos dará
las habilidades para comenzar a manipular datos en Python. Considero que un
microcurso de 4 horas con ejemplos prácticos es suficiente para tener una
noción de las cosas que se pueden hacer.
Precio: gratis
Microcurso de Kaggle: visualización de datos
La visualización
de datos es quizás una de las habilidades más subestimadas, pero es una de las
más importantes. Le permitirá comprender completamente los datos con los que
esté trabajando.
Precio: gratis
Microcurso de Kaggle: introducción al aprendizaje automático
Aquí es donde
comienza la parte emocionante. Se aprenden conceptos básicos, pero muy
importantes para empezar a entrenar modelos de aprendizaje automático.
Conceptos que luego será fundamental tenerlos muy claros.
Precio: Free
Microcurso de Kaggle: aprendizaje automático, nivel intermedio
Es complementario
al anterior, pero aquí se trabaja con variables categóricas por primera vez y hay
que lidiar con campos nulos en los datos.
Precio: gratis
Detengámonos aquí
por un momento. Debe quedar claro que estos 5 microcursos no van a ser un
proceso lineal, ya que probablemente habrá que ir y venir entre ellos para
refrescar conceptos. Cuando se trabaje con Pandas, es posible que haya que
volver al curso de Python para recordar algunas de las cosas aprendidas o ir a
la documentación de Pandas para comprender las nuevas funciones que vieron en
el en el curso de introducción al
aprendizaje automático. Y todo esto está bien, así es como se producirá el
verdadero aprendizaje.
Now, you will
realize these first 5 courses will give you the necessary skills to do
exploratory data analysis (EDA) and create baseline models that later you will
be able to improve. So, now is the right time to start with simple Kaggle
competitions and put into practice what you’ve learned. Ahora, se dará cuenta
de que estos primeros 5 cursos le brindarán las habilidades necesarias para
realizar análisis de datos exploratorios (EDA) y crear modelos de referencia
que luego podrá mejorar. Entonces, este es el momento adecuado para comenzar
con competencias simples de Kaggle y poner en práctica lo que ha aprendido.
Competición de juegos de Kaggle: Titanic
Aquí se pondrá en
práctica lo aprendido en los cursos introductorios. Tal vez sea un poco
intimidatorio al principio, pero no importa porque no se trata de ser el
primero en la tabla de clasificación, se trata de aprender. En esta
competencia, aprenderá sobre clasificación y métricas relevantes para este tipo
de problemas, como precisión, recuperación y exactitud.
Competición de juegos Kaggle: precios de casas
En esta
competencia, aplicará modelos de regresión y aprenderá sobre métricas
relevantes como RMSE.
En este punto, ya tiene mucha experiencia práctica y sentirá que puede
resolver muchos problemas, pero lo más probable es que no comprenda
completamente lo que está sucediendo detrás de cada uno de los algoritmos de clasificación
y regresión que utiliza. Entonces aquí es donde tenemos que estudiar los fundamentos de lo que estamos
aprendiendo.
Muchos cursos comienzan aquí, pero al menos puedo absorber mejor esta
información una vez que he trabajado en algo práctico antes.
Libro: Data Science from Scratch (La ciencia de datos desde cero)
En este punto,
nos separaremos momentáneamente de pandas, scikit-learn y otras bibliotecas de
Python para aprender de manera práctica lo que está sucediendo “detrás” de
estos algoritmos.
Este libro de
Joel Grus es bastante amigable de leer, trae ejemplos de Python de cada uno de
los temas y no tiene mucha matemática pesada, que es fundamental para esta
etapa. Queremos comprender el principio de los algoritmos, pero con una
perspectiva práctica, no queremos desmotivarnos leyendo mucha notación de
densas matemáticas.
Precio: $42
aproximadamente
Si ha conseguido
llegar tan lejos, diría que es bastante capaz de trabajar en ciencia de datos y
comprender los principios fundamentales detrás de las soluciones. Así que aquí
le invito a que siga participando en competencias de Kaggle más complejas, a
participar en los foros y a explorar nuevos métodos que encuentre en las
soluciones de otros participantes.
Curso online: Machine Learning by Andrew Ng (Aprendizaje automático,
de Andrew Ng)
Here we are going
to see many of the things that we have already learned but we are going to
watch it explained by one of the leaders in the field, and his approach is
going to be more mathematical so it will be an excellent way to understand our
models even more. Aquí vamos a ver muchas de las cosas que ya hemos aprendido pero las
vamos a ver explicadas por uno de los líderes en este campo, y su enfoque va a
ser más matemático por lo que será una excelente manera de entender aún más nuestros
modelos.
Precio: gratis
sin certificado — $79 con certificado
Libro: The Elements of Statistical Learning (Los elementos del
aprendizaje estadístico)
Ahora comienza la
parte pesada de las matemáticas. Imagínese si hubiéramos comenzado desde aquí,
habría sido un camino cuesta arriba todo el tiempo y probablemente nos
hubiéramos rendido más fácilmente.
Precio: $70, hay una versión oficial gratis en la página de Stanford.
Online Course: Deep Learning by Andrew Ng
A estas alturas,
probablemente ya haya leído sobre el aprendizaje profundo y haya jugado con
algunos modelos. Pero aquí vamos a conocer los fundamentos de redes neuronales,
cómo funcionan y aprenderemos a implementar y aplicar las diferentes
arquitecturas que existen.
Precio: $49/mes
En este punto,
depende mucho de sus propios intereses, y puede concentrarse en los problemas
de regresión y series de tiempo o tal vez profundizar más en el aprendizaje
profundo.
Trabajos relacionados: