WOT

Saturday, October 8, 2016

Los diez algoritmos y métodos más importantes que utilizan los científicos de datos



Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets 


La última encuesta de KDnuggets identifica la lista de los mejores algoritmos que utilizan los científicos de datos, y hay sorpresas con la mayoría de los que se utilizan en el entorno académico y los orientados a la industria.
Por Gregory Piatetsky, KDnuggets.


La pregunta de la última encuesta de fue: 
¿Qué metodos / algoritmos ha utilizado durante los últimos 12 meses para tratar una aplicación real relacionada con la ciencia de los datos? 

Estos son los resultados, con una población de 844 votantes. 

Los 10 mejores algoritmos (y métodos) y su porcentaje de votantes son: 
Sector
% de votantes
Promedio de algoritmos utilizados
% de uso de algoritmos supervisados
% de uso de algoritmos sin supervisión
% de uso de algoritmos meta
% de uso de otros métodos
Industria
59%
8,4
94%
81%
55%
83%
Gobierno / entidades sin ánimo de lucro
4,1%
9,5
91%
89%
49%
89%
Estudiantes
16%
8,1
94%
76%
47%
77%
Mundo académico
12%
7,2
95%
81%
44%
77%
Todos
8,3
94%
82%
48%
81%
 
Fig. 1: Los 10 mejores algoritmos y métodos que utilizan los científicos de datos
Ver tabla completa de todos los algoritmos y métodos al final de la publicación 

(Nota: El objetivo de la encuesta era descubrir los mejores herramientas que utilizan los científicos de datos, pero la palabra 'herramientas' es ambigua, por lo que por simplicidad a la tabla le he dado el nombre de los 10 mejores 'algoritmos'. Por supuesto, como muchos de ustedes han señalado con razón, las estadísticas o la visualización (y algunas otras opciones) no son algoritmos, y se pueden clasificar mejor como métodos o enfoques. Mi error y cambió el nombre a este post "10 algoritmos y métodos".) 

El encuestado de tipo medio utiliza algoritmos / métodos 8.1, lo que supone un gran aumento en relación con una encuesta similar realizada en 2011. 

Comparándolos con la encuesta de 2011 Los algoritmos para análisis de datos / minería de datos se observa que los mejores métodos siguen siendo los de regresión, agrupaciones, arboles / reglas de decisión, y la visualización Los mayores incrementos relativos, medidos en porcentajes relativos (porcentajes de 2016 / porcentajes de 2011 - 1) son para
·         Aprendizaje por refuerzo, sube un 40%, desde el 23,5% de utilización en 2011 hasta el 32,8% en 2016
·         Minería de textos, sube un 30%, desde el 27,7% hasta el 35,9%
·         Visualización, sube un 27% desde el 38,3% hasta el 48,7%
·         Series temporales / Análisis de secuencias, sube un 25% desde el 29,6% al 37,0%
·         Detección de anomalías / desviación, sube un 19% desde el 16,4% al 19,5%
·         Métodos de agregación, sube un 19% desde el 28,3% hasta el 33.6%
·         SVM, sube un 18% desde el 28,6% al 33.6%
·         Regression, sube un 16% desde el 57,9% hasta el 67.1%
Los más populares entre las nuevas opciones añadidas en el 2016 son
·         K-vecinos más cercanos, el 46% de participación
·         PCA, el 43%
·         Bosques aleatorios, el 38%
·         Optimización, el 24%
·         Redes neuronales, aprendizaje profundo, el 19%
·         Descomposición en valores singulares, el 16%
Las mayores caídas son para
·         Reglas de asociación, un descenso del 47%, del 28,6% al 15,3%
·         Modelado Uplift, un descenso del 36%, desde un 4,8% a un 3,1% (que constituye  una sorpresa, dado sólidos resultados publicados)
·         Análisis de factores, un descenso del 24%, desde 18,6% a un 14,2%
·         Análisis de supervivencia, desciende un 15%, desde un 9,3% a un 7,9%
La siguiente tabla muestra el uso de diferentes tipos de algoritmos: Supervisado, no supervisado, Meta, y otra por tipo de empleo. Se excluyeron de NA (4,5%) y otros (3%) tipos de empleo. 

Tabla 1: Uso de los algoritmos por sectores 
Sector
% de votantes
Promedio de algoritmos utilizados
% de uso de algoritmos supervisados
% de uso de algoritmos sin supervisión
% de uso de algoritmos meta
% de uso de otros métodos
Industria
59%
8,4
94%
81%
55%
83%
Gobierno / entidades sin ánimo de lucro
4,1%
9,5
91%
89%
49%
89%
Estudiantes
16%
8,1
94%
76%
47%
77%
Mundo académico
12%
7,2
95%
81%
44%
77%
Todos
8,3
94%
82%
48%
81%


Observamos que casi todo el mundo utiliza algoritmos de aprendizaje supervisado. 
Los científicos de datos que trabajan para el gobierno y para la industria utilizaron diferentes tipos de algoritmos que los estudiantes o investigadores académicos,
y la industria de datos científicos eran más propensos a usar algoritmos meta. 

A continuación, analizamos el uso de los 10 algoritmos y de aprendizaje profundo por sectores. 

Tabla 2: Uso de los 10 algoritmos y de aprendizaje profundo por sectores
Algoritmo
Industria
Gobierno / entidades sin ánimo de lucro
Mundo académico
Estudiantes
Todos
Regresión
71%
63%
51%
64%
67%
Agrupación
58%
63%
51%
58%
57%
Decisión
59%
63%
38%
57%
55%
Visualización
55%
71%
28%
47%
49%
K-NN
46%
54%
48%
47%
46%
PCA
43%
57%
48%
40%
43%
Estadística
47%
49%
37%
36%
43%
Bosques aleatorios
40%
40%
29%
36%
38%
Series temporales
42%
54%
26%
24%
37%
Minería de textos
36%
40%
33%
38%
36%
Aprendizaje profundo
18%
9%
24%
19%
19%



Para hacer más visibles las diferencias,se calculamos la desviación del uso de algoritmo para cada tipo de sector en particular en relación con el uso promedio del algoritmo: Desviaicón (Tipo de algoritmo) = Uso (Tipo de algoritmo) / Uso (Todos los algoritmos) - 1. 
 
Fig. 2: Desviación del uso de los algoritmos por sectores. 

Observamos que los científicos de datos que trabajan para la industria son más propensos a utilizar la regresión, visualización, estadística, bosques aleatorios, y las series temporales El Gobierno / entidades sin ánimo de lucro son más propensos a utilizar la visualización, PCA, y las series temporales. Los investigadores académicos son más propensos a usar PCA y el aprendizaje profundo. Los estudiantes generalmente usan menos algoritmos, pero utilizan con más frecuencia la minería de textos y el profundo aprendizaje. 

Ahora nos centramos en la participación regional, que representa a la totalidad de los visitantes de KDnuggets.


Distribución regional de los participantes en la encuesta
·         Estados Unidos / Canadá, 40%
·         Europa, 32%
·         Asia, 18%
·         América Latina, 5,0%
·         África / oriente Medio, 3,4%
·         Australia / Nueva Zelanda, 2,2%
Como en la encuesta de 2011, se han concentrado Industria / Gobierno en un grupo y los Investigadores académicos / Estudiantes en un segundo grupo, y se ha calculado la 'afinidad' del algoritmo para el grupo de Industria / Gobierno con la fórmula 

N(Alg,Ind_Gov) / N(Alg,Aca_Stu) 
------------------------------- - 1 
N(Ind_Gov) / N(Aca_Stu)

De manera que un algoritmo con afinidad 0 significa que se utiliza por igual tanto en el grupo de Industria / Gobierno como en el grupo de Investigadores académicos / Estudiantes. Cuanto mayor es la afinidad del grupo Industria / Gobierno más 'industrial' es el algoritmo, y cuanto menor es la afinidad, más 'académico' es el algoritmo. 
La mayoría de los algoritmos 'industriales' fueron:
·         Modelado uplift, 2,01
·         Detección de anomalías, 1,61
·         Análisis de supervivencia, 1,39
·         Análisis de factores, 0,83
·         Series temporales / Secuencias, 0,69
·         Reglas de asociación, 0,5
Si bien el modelado uplift fue de nuevo el 'algoritmo' industrial más representativo, el hallazgo sorprendente es que lo utilizan muy pocos, solo el 3,1%, el algoritmo con menor porcentaje de uso en la encuesta. 
La mayor parte de los algoritmos académicos fueron:
·         Redes neuronales normales, -0.35
·         Clasificadores bayesianos ingenuos, -0.35
·         SVM, -0.24
·         Aprendizaje profundo, -0.19
·         EM, -0.17
La siguiente figura muestra todos los algoritmos y sus afinidades Industria / Académico,  
Poll Algorithms Affinity Industry Academia 
Fig. 3. Encuesta de KDnuggets Los  mejores algoritmos que utilizan los científicos de datos en la Industria frente a los Académicos 
La siguiente tabla contiene detalles acerca de los algoritmos, el % de encuestados que los utilizaron en las encuestas de 2016 y de 2011, la variación (% 2016 /% 2011 - 1), y la afinidad con el grupo de Industria como se explicó anteriormente. 
Tabla 3: Encuesta KDnuggets de 2016: Algoritmos  que utilizan los científicos de datos 
La siguiente tabla contiene detalles acerca de los algoritmos, con columnas
·         N: Clasificación de acuerdo con la proporción de uso
·         Algoritmo: Nombre del algoritmo,
·         Tipo: S, Supervisado, U, no supervisada, M, Meta, Z, Otro,
·         % de encuestados que utilizan este algoritmo en la encuesta de 2016
·         % de encuestados que utilizan este algoritmo en la encuesta de 2011
·         variación (% 2016 /% 2011 - 1), y
·         afinidad con el grupo de Industria como se ha explicado anteriormente.

Tabla 4: Encuesta KDnuggets de 2016: Algoritmos utilizados por los científicos de datos 
N:
Algoritmo
Tipo
% utilizado en 2016
% utilizado en 2011
% de variación
Afinidad con el grupo de Industria
1
Regresión
S
67%
58%
16%
0,21
2
Agrupación
U
57%
52%
8,7%
0,05
3
Árboles / Reglas de decisión
S
55%
60%
-7,3%
0,21
4
Visualización
Z
49%
38%
27%
0,44
5
K-vecinos más cercanos
S
46%
0,32
6
PCA
U
43%
0,02
7
Estadística
Z
43%
48%
-11,0%
1,39
8
Bosques aleatorios
S
38%
0,22
9
Series temporales / Análisis de secuencias
Z
37%
30%
25,0%
0,69
10
Minería de textos
Z
36%
28%
29,8%
0,01
11
Métodos de agregación
M
34%
28%
18,9%
-0,17
12
SVM
S
34%
29%
17,6%
-0,24
13
Refuerzo
M
33%
23%
40%
0,24
14
Redes neuronales normales
S
24%
27%
-10,5%
-0,35
15
Optimización
Z
24%
0,07
16
Clasificadores bayesianos ingenuos
S
24%
22%
8,9%
-0,02
17
Ensacado
M
22%
20%
8,8%
0,02
18
Anomalía /detección de desviación
Z
20%
16%
19%
1,61
19
Redes neuronales de aprendizaje profundo
S
19%
-0,35
20
Descomposición en valores singulares
U
16%
0,29
21
Reglas de asociación
Z
15%
29%
-47%
0,50
22
Gráfico / Enlace / Análisis de red social
Z
15%
14%
8,0%
-0,08
23
Análisis factorial
U
14%
19%
-23,8%
0,14
24
Redes bayesianas
S
13%
-0,10
25
Algoritmos genéticos
Z
8,8%
9,3%
-6,0%
0,83
26
Análisis de supervivencia
Z
7,9%
9,3%
-14,9%
-0,15
27
EM
U
6,6%
-0,19
28
Otros métodos
Z
4,6%
-0,06
29
Modelado uplift
S
3,1%
4,8%
-36,1%
2,01

Artículos relacionados:


No comments:

Post a Comment