Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets
La última encuesta de KDnuggets identifica la lista de los mejores algoritmos que utilizan los científicos de datos, y hay sorpresas con la mayoría de los que se utilizan en el entorno académico y los orientados a la industria.
La pregunta de la última encuesta de fue:
¿Qué metodos / algoritmos ha utilizado durante los últimos 12 meses para tratar una aplicación real relacionada con la ciencia de los datos? .
Estos son los resultados, con una población de 844 votantes.
Los 10 mejores algoritmos (y métodos) y su porcentaje de votantes son:
¿Qué metodos / algoritmos ha utilizado durante los últimos 12 meses para tratar una aplicación real relacionada con la ciencia de los datos? .
Estos son los resultados, con una población de 844 votantes.
Los 10 mejores algoritmos (y métodos) y su porcentaje de votantes son:
Sector
|
% de
votantes
|
Promedio
de algoritmos utilizados
|
% de
uso de algoritmos supervisados
|
% de uso
de algoritmos sin supervisión
|
% de
uso de algoritmos meta
|
% de
uso de otros métodos
|
Industria
|
59%
|
8,4
|
94%
|
81%
|
55%
|
83%
|
Gobierno / entidades sin ánimo de lucro
|
4,1%
|
9,5
|
91%
|
89%
|
49%
|
89%
|
Estudiantes
|
16%
|
8,1
|
94%
|
76%
|
47%
|
77%
|
Mundo académico
|
12%
|
7,2
|
95%
|
81%
|
44%
|
77%
|
Todos
|
8,3
|
94%
|
82%
|
48%
|
81%
|
Fig. 1: Los 10 mejores algoritmos y métodos que utilizan los científicos de datos
Ver tabla completa de todos los algoritmos y métodos al final de la publicación
(Nota: El objetivo de la encuesta era descubrir los mejores herramientas que utilizan los científicos de datos, pero la palabra 'herramientas' es ambigua, por lo que por simplicidad a la tabla le he dado el nombre de los 10 mejores 'algoritmos'. Por supuesto, como muchos de ustedes han señalado con razón, las estadísticas o la visualización (y algunas otras opciones) no son algoritmos, y se pueden clasificar mejor como métodos o enfoques. Mi error y cambió el nombre a este post "10 algoritmos y métodos".)
El encuestado de tipo medio utiliza algoritmos / métodos 8.1, lo que supone un gran aumento en relación con una encuesta similar realizada en 2011.
Comparándolos con la encuesta de 2011 Los algoritmos para análisis de datos / minería de datos se observa que los mejores métodos siguen siendo los de regresión, agrupaciones, arboles / reglas de decisión, y la visualización Los mayores incrementos relativos, medidos en porcentajes relativos (porcentajes de 2016 / porcentajes de 2011 - 1) son para
· Aprendizaje por refuerzo, sube un 40%,
desde el 23,5% de utilización en 2011 hasta el 32,8% en 2016
·
Minería de textos, sube un 30%, desde el 27,7% hasta
el 35,9%
·
Visualización, sube un 27%
desde el 38,3% hasta el 48,7%
· Series temporales / Análisis de secuencias, sube un 25%
desde el 29,6% al 37,0%
·
Detección de anomalías / desviación, sube un 19% desde el 16,4% al 19,5%
·
Métodos de agregación, sube un 19%
desde el 28,3% hasta el 33.6%
·
SVM, sube un 18% desde el 28,6% al
33.6%
·
Regression, sube un 16% desde el 57,9%
hasta el 67.1%
Los más populares entre las
nuevas opciones añadidas en el 2016 son
·
K-vecinos más cercanos, el 46% de
participación
·
PCA, el 43%
·
Bosques aleatorios, el 38%
·
Optimización, el 24%
·
Redes neuronales, aprendizaje
profundo, el 19%
·
Descomposición en valores
singulares, el 16%
Las mayores caídas son para
·
Reglas de asociación, un descenso
del 47%, del 28,6% al 15,3%
·
Modelado Uplift, un descenso del
36%, desde un 4,8% a un 3,1% (que constituye
una sorpresa, dado sólidos resultados publicados)
·
Análisis de factores, un descenso
del 24%, desde 18,6% a un 14,2%
·
Análisis de supervivencia,
desciende un 15%, desde un 9,3% a un 7,9%
La siguiente tabla muestra el uso
de diferentes tipos de algoritmos: Supervisado, no supervisado, Meta, y otra
por tipo de empleo. Se excluyeron de NA (4,5%) y otros (3%) tipos de
empleo.
Tabla 1: Uso de los algoritmos por sectores
Tabla 1: Uso de los algoritmos por sectores
Sector
|
% de
votantes
|
Promedio
de algoritmos utilizados
|
% de
uso de algoritmos supervisados
|
% de uso
de algoritmos sin supervisión
|
% de
uso de algoritmos meta
|
% de
uso de otros métodos
|
Industria
|
59%
|
8,4
|
94%
|
81%
|
55%
|
83%
|
Gobierno / entidades sin ánimo de lucro
|
4,1%
|
9,5
|
91%
|
89%
|
49%
|
89%
|
Estudiantes
|
16%
|
8,1
|
94%
|
76%
|
47%
|
77%
|
Mundo académico
|
12%
|
7,2
|
95%
|
81%
|
44%
|
77%
|
Todos
|
8,3
|
94%
|
82%
|
48%
|
81%
|
Observamos que casi todo el mundo utiliza algoritmos de aprendizaje supervisado.
Los científicos de datos que trabajan para el gobierno y para la industria utilizaron diferentes tipos de algoritmos que los estudiantes o investigadores académicos,
y la industria de datos científicos eran más propensos a usar algoritmos meta.
A continuación, analizamos el uso de los 10 algoritmos y de aprendizaje profundo por sectores.
Tabla 2: Uso de los 10 algoritmos y de aprendizaje profundo por sectores
Algoritmo
|
Industria
|
Gobierno
/ entidades sin ánimo de lucro
|
Mundo
académico
|
Estudiantes
|
Todos
|
Regresión
|
71%
|
63%
|
51%
|
64%
|
67%
|
Agrupación
|
58%
|
63%
|
51%
|
58%
|
57%
|
Decisión
|
59%
|
63%
|
38%
|
57%
|
55%
|
Visualización
|
55%
|
71%
|
28%
|
47%
|
49%
|
K-NN
|
46%
|
54%
|
48%
|
47%
|
46%
|
PCA
|
43%
|
57%
|
48%
|
40%
|
43%
|
Estadística
|
47%
|
49%
|
37%
|
36%
|
43%
|
Bosques aleatorios
|
40%
|
40%
|
29%
|
36%
|
38%
|
Series temporales
|
42%
|
54%
|
26%
|
24%
|
37%
|
Minería de textos
|
36%
|
40%
|
33%
|
38%
|
36%
|
Aprendizaje profundo
|
18%
|
9%
|
24%
|
19%
|
19%
|
Para hacer más visibles las diferencias,se calculamos la desviación del uso de algoritmo para cada tipo de sector en particular en relación con el uso promedio del algoritmo: Desviaicón (Tipo de algoritmo) = Uso (Tipo de algoritmo) / Uso (Todos los algoritmos) - 1.
Fig. 2: Desviación del uso de los algoritmos por sectores.
Observamos que los científicos de datos que trabajan para la industria son más propensos a utilizar la regresión, visualización, estadística, bosques aleatorios, y las series temporales El Gobierno / entidades sin ánimo de lucro son más propensos a utilizar la visualización, PCA, y las series temporales. Los investigadores académicos son más propensos a usar PCA y el aprendizaje profundo. Los estudiantes generalmente usan menos algoritmos, pero utilizan con más frecuencia la minería de textos y el profundo aprendizaje.
Ahora nos centramos en la participación regional, que representa a la totalidad de los visitantes de KDnuggets.
Distribución regional de los participantes en la encuesta
· Estados Unidos / Canadá, 40%
· Europa, 32%
· Asia, 18%
· América Latina, 5,0%
· África / oriente Medio, 3,4%
· Australia / Nueva Zelanda, 2,2%
Como en la encuesta de 2011, se han concentrado Industria / Gobierno en un grupo y los Investigadores académicos / Estudiantes en un segundo grupo, y se ha calculado la 'afinidad' del algoritmo para el grupo de Industria / Gobierno con la fórmula
N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)
De manera que un algoritmo con afinidad 0 significa que se utiliza por igual tanto en el grupo de Industria / Gobierno como en el grupo de Investigadores académicos / Estudiantes. Cuanto mayor es la afinidad del grupo Industria / Gobierno más 'industrial' es el algoritmo, y cuanto menor es la afinidad, más 'académico' es el algoritmo.
La mayoría de los algoritmos 'industriales' fueron:
· Modelado uplift, 2,01
· Detección de anomalías, 1,61
· Análisis de supervivencia, 1,39
· Análisis de factores, 0,83
· Series temporales / Secuencias, 0,69
· Reglas de asociación, 0,5
Si bien el modelado uplift fue de nuevo el 'algoritmo' industrial más representativo, el hallazgo sorprendente es que lo utilizan muy pocos, solo el 3,1%, el algoritmo con menor porcentaje de uso en la encuesta.
La mayor parte de los algoritmos académicos fueron:
La mayor parte de los algoritmos académicos fueron:
· Redes neuronales normales, -0.35
· Clasificadores bayesianos ingenuos, -0.35
· SVM, -0.24
· Aprendizaje profundo, -0.19
· EM, -0.17
La siguiente figura muestra todos los algoritmos y sus afinidades Industria / Académico,
Fig. 3. Encuesta de KDnuggets Los mejores algoritmos que utilizan los científicos de datos en la Industria frente a los Académicos
La siguiente tabla contiene detalles acerca de los algoritmos, el % de encuestados que los utilizaron en las encuestas de 2016 y de 2011, la variación (% 2016 /% 2011 - 1), y la afinidad con el grupo de Industria como se explicó anteriormente.
Tabla 3: Encuesta KDnuggets de 2016: Algoritmos que utilizan los científicos de datos
La siguiente tabla contiene detalles acerca de los algoritmos, con columnas
Fig. 3. Encuesta de KDnuggets Los mejores algoritmos que utilizan los científicos de datos en la Industria frente a los Académicos
La siguiente tabla contiene detalles acerca de los algoritmos, el % de encuestados que los utilizaron en las encuestas de 2016 y de 2011, la variación (% 2016 /% 2011 - 1), y la afinidad con el grupo de Industria como se explicó anteriormente.
Tabla 3: Encuesta KDnuggets de 2016: Algoritmos que utilizan los científicos de datos
La siguiente tabla contiene detalles acerca de los algoritmos, con columnas
· N: Clasificación de acuerdo con la proporción de uso
· Algoritmo: Nombre del algoritmo,
· Tipo: S, Supervisado, U, no supervisada, M, Meta, Z, Otro,
· % de encuestados que utilizan este algoritmo en la encuesta de 2016
· % de encuestados que utilizan este algoritmo en la encuesta de 2011
· variación (% 2016 /% 2011 - 1), y
· afinidad con el grupo de Industria como se ha explicado anteriormente.
Tabla 4: Encuesta KDnuggets de 2016: Algoritmos utilizados por los científicos de datos
N:
|
Algoritmo
|
Tipo
|
% utilizado en 2016
|
% utilizado en 2011
|
% de variación
|
Afinidad con el grupo de Industria
|
1
|
Regresión
|
S
|
67%
|
58%
|
16%
|
0,21
|
2
|
Agrupación
|
U
|
57%
|
52%
|
8,7%
|
0,05
|
3
|
Árboles / Reglas de decisión
|
S
|
55%
|
60%
|
-7,3%
|
0,21
|
4
|
Visualización
|
Z
|
49%
|
38%
|
27%
|
0,44
|
5
|
K-vecinos más cercanos
|
S
|
46%
|
0,32
| ||
6
|
PCA
|
U
|
43%
|
0,02
| ||
7
|
Estadística
|
Z
|
43%
|
48%
|
-11,0%
|
1,39
|
8
|
Bosques aleatorios
|
S
|
38%
|
0,22
| ||
9
|
Series temporales / Análisis de secuencias
|
Z
|
37%
|
30%
|
25,0%
|
0,69
|
10
|
Minería de textos
|
Z
|
36%
|
28%
|
29,8%
|
0,01
|
11
|
Métodos de agregación
|
M
|
34%
|
28%
|
18,9%
|
-0,17
|
12
|
SVM
|
S
|
34%
|
29%
|
17,6%
|
-0,24
|
13
|
Refuerzo
|
M
|
33%
|
23%
|
40%
|
0,24
|
14
|
Redes neuronales normales
|
S
|
24%
|
27%
|
-10,5%
|
-0,35
|
15
|
Optimización
|
Z
|
24%
|
0,07
| ||
16
|
Clasificadores bayesianos ingenuos
|
S
|
24%
|
22%
|
8,9%
|
-0,02
|
17
|
Ensacado
|
M
|
22%
|
20%
|
8,8%
|
0,02
|
18
|
Anomalía /detección de desviación
|
Z
|
20%
|
16%
|
19%
|
1,61
|
19
|
Redes neuronales de aprendizaje profundo
|
S
|
19%
|
-0,35
| ||
20
|
Descomposición en valores singulares
|
U
|
16%
|
0,29
| ||
21
|
Reglas de asociación
|
Z
|
15%
|
29%
|
-47%
|
0,50
|
22
|
Gráfico / Enlace / Análisis de red social
|
Z
|
15%
|
14%
|
8,0%
|
-0,08
|
23
|
Análisis factorial
|
U
|
14%
|
19%
|
-23,8%
|
0,14
|
24
|
Redes bayesianas
|
S
|
13%
|
-0,10
| ||
25
|
Algoritmos genéticos
|
Z
|
8,8%
|
9,3%
|
-6,0%
|
0,83
|
26
|
Análisis de supervivencia
|
Z
|
7,9%
|
9,3%
|
-14,9%
|
-0,15
|
27
|
EM
|
U
|
6,6%
|
-0,19
| ||
28
|
Otros métodos
|
Z
|
4,6%
|
-0,06
| ||
29
|
Modelado uplift
|
S
|
3,1%
|
4,8%
|
-36,1%
|
2,01
|
Artículos relacionados:
No comments:
Post a Comment