WOT

Wednesday, August 26, 2020

Si tuviera que empezar a aprender sobre la ciencia de datos, ¿cómo lo haría?



If I had to start learning Data Science again, how would do it?


This article is a translation of the original that appears on KDnuggets: If I had to start learning Data Science again, how would do it?

Thank you very much for allowing its publication in Spanish.

Muchas gracias por permitir su publicación en español. 



Si tuviera que empezar a aprender sobre la ciencia de datos, ¿cómo lo haría?

Share
Etiquetas: AdviceCareerData ScienceKaggle


Si bien existen diferentes opciones para aprender desde el principio la ciencia de datos, el enfoque adecuado para cada persona debe basarse en cómo aprender mejor. Un método efectivo es hacer evolucionar el aprendizaje desde una práctica simple a bases complejas, como se describe en esta ruta de aprendizaje recomendada por un físico que se convirtió en un científico de datos.





Por Santiago Viquez, físico convertido en científico de datos, creador de  datasciencetrivia.com.

No hace mucho, me dio por pensar que si tuviera que empezar a aprender el aprendizaje automático y la ciencia de datos de nuevo, ¿por dónde empezaría? Lo curioso fue que el trayecto que imaginé era completamente diferente al que realmente hice cuando empecé a estudiarlos.
Soy consciente de que cada uno aprende a su manera. Algunos prefieren los videos, otros lo hacen mejor con los libros y muchas personas necesitan pagar por un curso para sentirse más motivadas. Y eso está bien porque lo importante es aprender y disfrutar haciéndolo.
Entonces, desde mi punto de vista y sabiendo cual es la forma en la que aprendo mejor, he diseñado este itinerario para el caso en el que tuviera que comenzar a aprender de nuevo la ciencia de datos.
Como se puede ver, mi forma favorita de aprender es ir de lo simple a lo complejo gradualmente. Esto significa comenzar con ejemplos prácticos y luego pasar a conceptos más abstractos.

Microcursos de Kaggle

Sé que puede parecer extraño comenzar de esta forma, ya que muchos preferirían empezar con fundamentos más sólidos y con videos de matemáticas para comprender completamente lo que está sucediendo detrás de cada modelo de aprendizaje automático. Pero desde mi perspectiva, comenzar con algo práctico y concreto ayuda a tener una mejor visión de la imagen completa.
Además, la duración de estos microcursos es de alrededor de 4 horas, por lo que cumplir con esos pequeños objetivos por adelantado agrega un impulso de motivación adicional.

Microcurso de Kaggle: Python

Si está familiarizado con Python, puede omitir esta parte. Aquí aprenderá conceptos básicos de Python que le ayudarán a comenzar a aprender la ciencia de datos. Habrá muchas cosas sobre Python que seguirán siendo un misterio. Pero a medida que avancemos, lo aprenderá con la práctica.
Precio: gratis

MIcrocurso de Kaggle: Pandas

Pandas nos dará las habilidades para comenzar a manipular datos en Python. Considero que un microcurso de 4 horas con ejemplos prácticos es suficiente para tener una noción de las cosas que se pueden hacer.
Precio: gratis

Microcurso de Kaggle: visualización de datos

La visualización de datos es quizás una de las habilidades más subestimadas, pero es una de las más importantes. Le permitirá comprender completamente los datos con los que esté trabajando.
Precio: gratis

Microcurso de Kaggle: introducción al aprendizaje automático

Aquí es donde comienza la parte emocionante. Se aprenden conceptos básicos, pero muy importantes para empezar a entrenar modelos de aprendizaje automático. Conceptos que luego será fundamental tenerlos muy claros.
Precio: Free
Microcurso de Kaggle: aprendizaje automático, nivel intermedio

Es complementario al anterior, pero aquí se trabaja con variables categóricas por primera vez y hay que lidiar con campos nulos en los datos.
Precio: gratis
Detengámonos aquí por un momento. Debe quedar claro que estos 5 microcursos no van a ser un proceso lineal, ya que probablemente habrá que ir y venir entre ellos para refrescar conceptos. Cuando se trabaje con Pandas, es posible que haya que volver al curso de Python para recordar algunas de las cosas aprendidas o ir a la documentación de Pandas para comprender las nuevas funciones que vieron en el  en el curso de introducción al aprendizaje automático. Y todo esto está bien, así es como se producirá el verdadero aprendizaje.
Now, you will realize these first 5 courses will give you the necessary skills to do exploratory data analysis (EDA) and create baseline models that later you will be able to improve. So, now is the right time to start with simple Kaggle competitions and put into practice what you’ve learned. Ahora, se dará cuenta de que estos primeros 5 cursos le brindarán las habilidades necesarias para realizar análisis de datos exploratorios (EDA) y crear modelos de referencia que luego podrá mejorar. Entonces, este es el momento adecuado para comenzar con competencias simples de Kaggle y poner en práctica lo que ha aprendido.

Competición de juegos de Kaggle: Titanic

Aquí se pondrá en práctica lo aprendido en los cursos introductorios. Tal vez sea un poco intimidatorio al principio, pero no importa porque no se trata de ser el primero en la tabla de clasificación, se trata de aprender. En esta competencia, aprenderá sobre clasificación y métricas relevantes para este tipo de problemas, como precisión, recuperación y exactitud.


Competición de juegos Kaggle: precios de casas

En esta competencia, aplicará modelos de regresión y aprenderá sobre métricas relevantes como RMSE.

En este punto, ya tiene mucha experiencia práctica y sentirá que puede resolver muchos problemas, pero lo más probable es que no comprenda completamente lo que está sucediendo detrás de cada uno de los algoritmos de clasificación y regresión que utiliza. Entonces aquí es donde tenemos que estudiar los fundamentos de lo que estamos aprendiendo.
Muchos cursos comienzan aquí, pero al menos puedo absorber mejor esta información una vez que he trabajado en algo práctico antes.

Libro: Data Science from Scratch (La ciencia de datos desde cero)

En este punto, nos separaremos momentáneamente de pandas, scikit-learn y otras bibliotecas de Python para aprender de manera práctica lo que está sucediendo “detrás” de estos algoritmos.
Este libro de Joel Grus es bastante amigable de leer, trae ejemplos de Python de cada uno de los temas y no tiene mucha matemática pesada, que es fundamental para esta etapa. Queremos comprender el principio de los algoritmos, pero con una perspectiva práctica, no queremos desmotivarnos leyendo mucha notación de densas matemáticas.
Link: Amazon
Precio: $42 aproximadamente
Si ha conseguido llegar tan lejos, diría que es bastante capaz de trabajar en ciencia de datos y comprender los principios fundamentales detrás de las soluciones. Así que aquí le invito a que siga participando en competencias de Kaggle más complejas, a participar en los foros y a explorar nuevos métodos que encuentre en las soluciones de otros participantes.

Curso online: Machine Learning by Andrew Ng (Aprendizaje automático, de Andrew Ng)

Here we are going to see many of the things that we have already learned but we are going to watch it explained by one of the leaders in the field, and his approach is going to be more mathematical so it will be an excellent way to understand our models even more. Aquí vamos a ver muchas de las cosas que ya hemos aprendido pero las vamos a ver explicadas por uno de los líderes en este campo, y su enfoque va a ser más matemático por lo que será una excelente manera de entender aún más nuestros modelos.
Precio: gratis sin certificado — $79 con certificado

Libro: The Elements of Statistical Learning (Los elementos del aprendizaje estadístico)

Ahora comienza la parte pesada de las matemáticas. Imagínese si hubiéramos comenzado desde aquí, habría sido un camino cuesta arriba todo el tiempo y probablemente nos hubiéramos rendido más fácilmente.
Link: Amazon
Precio: $70, hay una versión oficial gratis en la página de Stanford.

Online Course: Deep Learning by Andrew Ng

A estas alturas, probablemente ya haya leído sobre el aprendizaje profundo y haya jugado con algunos modelos. Pero aquí vamos a conocer los fundamentos de redes neuronales, cómo funcionan y aprenderemos a implementar y aplicar las diferentes arquitecturas que existen.
Precio: $49/mes
En este punto, depende mucho de sus propios intereses, y puede concentrarse en los problemas de regresión y series de tiempo o tal vez profundizar más en el aprendizaje profundo.
Original. Publicado con permiso.

Trabajos relacionados:


No comments:

Post a Comment