Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Learn Data Science in 8 (Easy) Steps
Muchas gracias por permitir su publicación en español.
Para aquellos principiantes que todavía sienten que no tienen las suficientes habilidades como hackers, vale la pena echarle un vistazo a las alternativas de código abierto que no requieren que se codifique todo. Estas herramientas le permiten hacer más de un paso al mismo tiempo en el flujo de trabajo de la ciencia de datos. Por ejemplo, RapidMiner le permite al programador importar o hacer una recogida de datos, hacer algunas operaciones sobre ellos o limpiarlos, modelarlos y evaluarlos. Tenga en cuenta que es bueno saber cómo trabajar con estas herramientas, pero ¡debería seguir practicando sus habilidades de codificación!
Aprenda la ciencia de datos en
8 (sencillos) pasos
Etiquetas Big Data, Data
Science, DataCamp, Machine
Learning
¿Quiere aprender la ciencia de datos? ¡Eche un vistazo a estos 8
pasos (fáciles) que le ayudarán a orientarse en la dirección adecuada!
Por Karlijn Willems, periodista experto en ciencia de datos
y colaborador de DataCamp.
Una de las preguntas más frecuentes en el campo de la
ciencia de datos, además de la de ‘¿qué es la ciencia de datos?', es '¿cómo
puedo aprender la ciencia de datos?'. Es una pregunta que no sólo formulan los
que se acercan por primera vez a esta disciplina, sino que también la hacen
algunos que ya están familiarizados con
el tema desde hace algún tiempo. El camino hacia lo que llaman el 'trabajo más
sexy del siglo 21' o el 'mejor trabajo del año 2016’ no es evidentemente tan
agradable o tan sencillo como se podría pensar.
En DataCamp, los estudiantes aprenden la ciencia de datos practicándola.
Pero también nos hemos dado cuenta de que siguen haciendo estas preguntas. Es
posible encontrar una gran cantidad de opiniones y asesoramiento de expertos en
Internet, pero esta jungla de información no les está poniendo las cosas más
fáciles a los principiantes. Esta entrada tiene la intención de presentar una
visión general de los ocho pasos que hay que tener en cuenta para aprender la
ciencia de datos.
El objetivo no es el de proporcionar una lista
exhaustiva, sino más bien elaborar una guía para todo el mundo que esté
interesado en el aprendizaje de la ciencia de datos, o para aquellos que ya son
científicos de datos o forman parte de un equipo dedicado a esta actividad,
pero quieren disponer de algunos recursos adicionales para perfeccionarse en el
tema.
Si prefiere una representación visual de esta entrada
del blog, asegúrese de revisar la infografía correspondiente de 'Aprenda la
ciencia de datos en 8 (sencillosl) pasos'.
¿Qué es la ciencia de datos?
La ciencia de datos es todavía un
concepto difuso. Hay y ha habido muchas definiciones o intentos de definiciones
aproximadas, y no tiene por qué sorprender que algunas de ellas se hayan
representado de forma visual. El inicio más importante de esta tendencia se produjo en
2010, cuando Drew Conway presentó un diagrama de Venn para
definir el concepto de 'ciencia de datos'. En el centro de la imagen está la
ciencia de datos, resultado de la combinación de tener habilidades en piratería
informática, tener conocimientos de matemáticas y de estadística y poseer una
dilatada experiencia.
Con los años, se han publicado
muchos diagramas de Venn así como otros tipos de representaciones visuales que
se prodigaron en la ciencia de datos, unos con más éxito que otros. Para tener
una visión cronológica de los más importantes, ver el artículo Battle of the Data
Science Venn Diagrams.
Para abreviar una larga historia,
en 2016 conseguimos una imagen ligeramente diferente de lo que es la ciencia de
datos. Matthew Mayo publicó en un blog la representación visual de un trabajo de Gregory
Piatetsky-Shapiro. Hay muchas cosas que han cambiado. Hay dos cosas que
destacan entre todas: el hecho de que la ciencia de datos ya no está en el centro
de la imagen, y que el enfoque para definir la ciencia de datos es diferente.
La ciencia de datos se define ahora a través de su relación con otras
disciplinas, como la inteligencia artificial (IA), el aprendizaje automático
(AA), el aprendizaje profundo (AP), Big Data (BD) y la minería de datos (MD).
La ciencia de datos es una la intersección de la IA, AA y BD y tiene una
relación intrínseca con la MD, pues se considera el superconjunto formado por
la minería de datos y como pueda llamarse en el futuro la ciencia de datos.
Estas dos imágenes pueden parecer completamente
diferentes, pero comparten muchas similitudes: las disciplinas que se
visualizan en el cuadro de
Piatetsky-Shapiro requieren habilidades de hacker, tener conocimientos
de matemáticas y estadística y una gran experiencia o conocimiento del medio.
Antecedentes educativos de los científicos de datos
Se han llevado a cabo numerosas
encuestas en los últimos años sobre la formación académica de los científicos
de datos. Como consecuencia, también ha habido muchos resultados diferentes. En una encuesta del año 2014 de O'reilly, alrededor del 28% de los
consultados tenían una licenciatura, mientras que el 44% tenían un máster y el
20% tenían un doctorado. Campos comunes que los científicos de datos tienen como
formación son las matemáticas /
estadística, la informática, y la ingeniería. Los resultados representados en la
infografía son del año 2016 son muy
similares a los de la encuesta O'Reilly.
En general, se puede concluir que el título que es
necesario haber completado para convertirse en un científico de datos es
normalmente un título de maestría o doctorado. El campo de procedencia es de
menor importancia, pero presenta ventajas si tiene un fondo cuantitativo.
Paso 1. Tener un buen nivel de conocimientos en estadística, en
matemáticas y en aprendizaje automático
Con los años podría haber cambiado la perspectiva
sobre el concepto de ciencia de datos, pero en esencia se ha mantenido como una
ocupación de tipo técnico. Un buen conocimiento de estadística, matemáticas y
de aprendizaje automático se consideran todavía requisitos esenciales para
poder tener acceso a la ciencia de datos.
Ponerse al día en estas tres disciplinas
puede suponer una tortura, especialmente para aquellas personas que no tienen
conocimientos técnicos de ningún tipo. Por suerte, existen recursos
cualitativos más que suficientes para ayudar al futuro científico de datos a
salir de esto: La Khan Academy ofrece cursos online con una gran variedad de temas
matemáticos que sin duda serán de gran valor para usted, pero asegúrese también
de echar un vistazo al curso de Álgebra Lineal del MIT Open Courseware. Para estadística,
los materiales de DataCamp, Udacity y OpenIntro podrían
ayudar, y para el aprendizaje automático, habría que estar pendiente del
contenido de DataCamp, Stanford
Online y Coursera.
Paso 2 Aprender a programar
El desarrollo de las habilidades de hacker es también
una de las cosas que aún hay que tener en cuenta si se quiere aprender la
ciencia de datos.
Puede empezar por familiarizarse con los fundamentos
de la informática: conocer las estructuras de datos y los algoritmos básicos de
búsqueda. Después, avanzar en la comprensión de cómo funciona el proceso de
extremo a extremo: las cosas con las que se va a trabajar estarán integradas
con otros sistemas, así que es mejor entender cómo es el proceso de principio a
fin, desde la recopilación y el análisis de los requisitos a las pruebas y el
mantenimiento del código. Cuando haya captado este concepto, es el momento de
elegir un lenguaje de programación. Se puede elegir un lenguaje de código
abierto o uno comercial. Los aspectos a tener en cuenta para tomar una decisión
son la curva de aprendizaje, la industria en la que se desea trabajar, el
salario que acompaña el ser competente en el lenguaje de programación, ...
Esta infografía puede ayudar a facilitar la elección. DataCamp le puede
proporcionar ayuda si se ha optado por un lenguaje de programación de código
abierto.
Paso 3. Comprender las bases de datos
Cuando se inicia el aprendizaje de la ciencia de
datos se observa que una gran cantidad de tutoriales se centran en la
recuperación de datos de archivos de texto plano. Sin embargo, cuando se
empieza a trabajar o cuando se toma contacto con el sector, se ve que la
mayoría del trabajo requiere utilizar una o varias bases de datos.
Y hay una gran cantidad de bases de datos. Las
empresas pueden trabajar con otras empresas como Oracle o pueden optar por
alternativas de código abierto. La clave aquí, para que los árboles dejen ver
el bosque, es entender cómo funcionan las bases de datos. Aprender sobre el
porqué y el cómo de las bases de datos y lo que vendrá. Conceptos que es
necesario asimilar, y saber cómo funciona todo en los sistemas de gestión de
bases de datos relacionales (RBD) y el almacenamiento de datos. Esto significa
que la comparación entre el modelado dimensional frente al relacional no debe
tener secretos para el aspirante a científico de datos, ni tampoco SQL, ni debe
sonarle a nuevo el proceso de extracción, transformación y carga (ETL).
Si quiere aprender como funcionan
las bases de datos, debería revisar Mongo DB University, la ‘Introduction to Databases’ de la clase de Stanford Online así como los tutoriales
de DataStax y de Tutorials Point.
Paso 4. Explorar los flujos de trabajo de la ciencia de datos
La siguiente fase en el proceso de aprendizaje sería
explorar el flujo de trabajo de la ciencia de datos. Una gran cantidad de tutoriales
o cursos se centran sólo en uno o dos aspectos de la misma, pero pierden la
visión general del proceso que hay que ejecutar cuando se trabaja como científico
de datos o en un equipo de ciencia de datos. Es esencial no perder de vista el
proceso iterativo que es la ciencia de datos.
Para los que se inician en la
ciencia de datos y ya saben programar, el camino más fácil para descubrir como
funciona el flujo de trabajo de la ciencia de datos es practicando las
habilidades de programaciòn: hay que iniciar el viaje con R o con Python. Hay varios paquetes y
bibliotecas que se han diseñado para hacer la vida más fácil en cuanto a la
codificación. Eche un vistazo al fragmento de una infografía que aparece a continuación:
Para aquellos principiantes que todavía sienten que no tienen las suficientes habilidades como hackers, vale la pena echarle un vistazo a las alternativas de código abierto que no requieren que se codifique todo. Estas herramientas le permiten hacer más de un paso al mismo tiempo en el flujo de trabajo de la ciencia de datos. Por ejemplo, RapidMiner le permite al programador importar o hacer una recogida de datos, hacer algunas operaciones sobre ellos o limpiarlos, modelarlos y evaluarlos. Tenga en cuenta que es bueno saber cómo trabajar con estas herramientas, pero ¡debería seguir practicando sus habilidades de codificación!
Paso 5. Subir de nivel con Big Data
Muchos aspirantes están tan preocupados por lo que
ellos llaman 'los fundamentos' de la ciencia de datos que se olvidan del
panorama más amplio que hay en el exterior. Literalmente. Ya se han lanzado
algunas indirectas en las secciones anteriores sobre esto, pero hay una
discrepancia. La discrepancia entre los archivos de texto plano que se utilizan
en muchos tutoriales y las bases de datos que se utilizan en la industria, la
velocidad, la variedad y el volumen de los datos que está ahí fuera. Es una
realidad que no se puede ni se debe perder.
El Big Data podría haberse tratado solo de
propaganda, pero sin duda está ahí, y es importante darse cuenta de esto y
entender lo que abarca. Las tres cosas que hay que aprender sobre Big Data son:
1.
Ver por qué Big Data requiere un
enfoque diferente sobre el tratamiento de datos. La mejor manera de
comprenderlo es probablemente examinar los casos en los que se utiliza Big
Data. Se puede leer algo relacionado con esto aquí.
2.
Hay que familiarizarse con la
estructura de Hadoop : su uso está muy extendido para el almacenamiento y
procesado de datos distribuidos.
3.
No hay que olvidarse de Spark. Conseguir relacionar Spark con Python o Scala es el camino a seguir. Y,
mejor aún, matará dos pájaros de un tiro: practicar sus habilidades de
codificación y ampliar su enfoque en ciencia de datos.
Paso 6. Crecer, estar conectado y aprender
Crecer. Una vez llegados a este punto en
el que ya se dominan los fundamentos, es hora de crecer: practicar tanto como
sea posible y enfrentarse a retos de la ciencia de datos, como los que se
encuentran en Kaggle o en DrivenData. Indudablemente, le desafiarán a poner en práctica la teoría.
Además, también debe dejar crecer su intuición.
Conectar con expertos. Como alumno
de ciencia de datos, es posible que caiga en la trampa de mantenerse ocupado
solamente con su aprendizaje y con el de otros compañeros, pero es igualmente
importante estar conectado con aquellas personas que tienen una mayor
experiencia en este campo. De esta forma, se crea una red a la que puede
recurrir en caso de tener preguntas, o necesitar consejos o sugerencias, o para
lo que sea. Estas personas le motivarán para que mantenga un buen aprendizaje y
le pondrán a prueba para llegar aún más lejos.
Aprender. Podría decirse que el
aprendizaje permanente y la ciencia de los datos son sinónimos. Los
desafíos de Kaggle y de DrivenData mencionados más arriba le enseñarán algunas cosas sobre
como llevar a la práctica la ciencia de datos, Aparte de estos ejercicios
relativamente cortos, puede considerar la puesta en marcha de un proyecto de
mascotas y explorar algunas cosas incluso a un nivel más profundo.
Paso 7. Sumérjase completamente
Como en el caso de la inmersión
lingüística, también es necesario sumergirse en la ciencia de datos.
Dependiendo de las habilidades y conocimientos que ya tiene, usted podría
pensar en probar con un entrenamiento básico (campo de entrenamiento), acceder
a un puesto de prácticas o a un puesto de trabajo. Un entrenamiento básico es
una forma increíble de comenzar rápidamente e impulsar su aprendizaje de la
ciencia de datos. Un plus es que conocerá a mucha gente, y tiene así la
oportunidad de crear o ampliar su red de contactos. ¿Tiene problemas para
encontrar alguno? Eche un vistazo a Galvanize y Metis, pero no olvide que los
grupos Meetup pueden también organizar
actividades de entrenamiento básico y de talleres para la comunidad.
En segundo lugar, cuando ya tiene
los conceptos básicos de la ciencia de datos bajo control,
debe considerar la posibilidad de conseguir un puesto de prácticas. Muchas grandes empresas
como Facebook, Quora y Amazon han
ofertado puestos de trabajo en prácticas
y son empresas recomendables para iniciar la búsqueda de trabajo. También puede
utilizar sus canales sociales o su red de
contactos para conseguir información de primera mano sobre puestos vacantes de
prácticas. Finalmente, también puede echar un vistazo a startups: estas
pequeñas compañías pueden estar dispuestas a dejarle aprender mediante la experiencia
así como hacer que aprenda rápidamente. Merece la pena echar un vistazo a AngelList cuando se trata de empezar
a trabajar.
En esta última opción de inmersión es donde la
mayoría de los estudiantes experimentan un cuello de botella, como confirma la
reciente tendencia de búsqueda publicada en 'Entrevistas sobre la ciencia de
datos'. Aunque podría estas muy entusiasmado sobre conseguir un trabajo como
científico de datos, es esencial tener en cuenta un par de cosas cuando se
busca un puesto de trabajo:
·
En los anuncios de trabajo no
siempre se explica bien el puesto de trabajo. Podría ocurrir que el anuncio
solicite una vacante para un 'científico de datos', pero en realidad lo que
están buscando es un ingeniero de datos o analista de negocios. Consulte la infografía The Data Industry: de DataCamp Who Does What para
ver qué buscan las empresas cuando pubican una vacante.
·
Establezca sus expectativas con honestidad:
empezar a trabajar en un puesto de científico o analista de datos si no ha
tenido una experiencia real con el flujo de trabajo de la ciencia de datos,
bases de datos o desarrollo de extremo a extremo, no es realista. Asegúrese de
que puede demostrar que tiene una experiencia relevante cuando opte a un puesto
de trabajo.
No se desanime si no puede
conseguir el trabajo inmediatamente. En lugar de desanimarse procure mantenerse ocupado adquieriendo experiencia, y
eche un vistazo a las empresas que han publicando vacantes en ciencia de datos,
como Google, Microsoft y Twitter.
Paso 8. Comprométase con la comunidad
Este último paso es el que a veces se pasa por alto.
Incluso cuando ya está trabajando en la ciencia de datos o como científico de
datos, hay que recordar que la ciencia de datos necesita de un aprendizaje
continuo. Hay continuos avances, y es de vital importancia estar al tanto y
tener curiosidad de lo que está
sucediendo a su alrededor. Así que no sea tímido e intervenga en los
debates que se suscitan en los medios sociales, suscríbase a un boletín de
noticias, siga a las personas clave de la industria de la ciencia de datos,
escuche podcast, ... ¡Haga todo lo que pueda para colaborar con la comunidad!
Para estar al día en las últimas
noticias puede registrarse en los siguientes boletines: el boletín bimensual KD Nuggets y Data Elixir o el botetín Data Science Weekly. También puede seguir a algunas
personas clave en la industria de la ciencia de datos en Twitter. Esto también le mantendrá al
día. Algunas personas que podrian intersarle son DJ Patil, Andrew Ng, y Ben Lorica.
Únase a algunas comunidades en línea. LinkedIn,
Facebook, Reddit, ... Todos ellos ofrecen la posibilidad de conectarse con sus
compañeros. Debe aprovechar la oportunidad de convertirse en miembro de uno de
estos grupos:
·
En LinkedIn, asegúrese de echar un vistazo a los
grupos de 'Big Data, Analytics, Business Intelligence', 'Big Data Analytics',
'Data Scientists' o 'Data Mining, Statistics, Big Data, Data Visualization, and
Data Science'.
·
En Facebook, podrían interesarle los grupos
'Beginning Data Science, Analytics, Machine Learning, Data Mining, R, Python',
'Learn Python'.
·
En Subreddits puede ver '/r/datascience', '/r/rstats' y '/r/python', ¡entre
muchos otros!
¡Esta lista pretende ser sólo un
indicador y no es exhaustiva! Si quiere seguir viendo la descripción de más
recursos puede hacerlo here.
Por último, ¡no se olvide de contribuir a las
comunidades en las que se ha dado de alta!
Sobre DataCamp
DataCamp es una plataforma de educación interactiva centrada en
proporcionar la mejor experiencia de aprendizaje dedicada específicamente a la
ciencia de datos. Nuestros cursos sobre R, Python y Data Science están organizados en torno a un cierto tema, y combinan
vídeo instrucciones con desafíos de codificación en el navegador, de manera
que pueda aprender haciendo. Puede empezar cualquier curso
de forma gratuita, cuando quiera y donde quiera.
Biografía: Karlijn Willems es
un periodista de cienca de datos y colabora escribiendo para la comunidad de DataCamp, centrándose
en la educación de la ciencia de datos, en las últimas noticias y en las últimas tendencias. Es licenciada en
Literatura y Lingüística y en Gestión de la Información.
Enlaces
relacionados:
Python strip() method returns the cop of the string removing leading and trailing white spaces from the string. This method by default removes white spaces but if you want to remove another character then you can also do so.
ReplyDeleteReally interesting and informative post! Thanks for sharing with us.
ReplyDeleteclick here
The article is very interesting and very understood to be read, may be useful for the people.
ReplyDeletePHP implode
The useradd is a low-level utility used to manage users on the Linux system. By using useradd utility you create new users and assign them to the groups. As Linux is a multiuser system it’s important for the administrator to manage tasks like adding user, removing user, assigning a user to the group, etc.
ReplyDeleteRead More
Great post ! I am pretty much pleased with your good post.You put really very helpful information.
ReplyDelete