Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets

Top Algorithms and Methods Used by Data Scientists

La última encuesta de KDnuggets identifica la lista de los mejores algoritmos que utilizan los científicos de datos, y hay sorpresas con la mayoría de los que se utilizan en el entorno académico y los orientados a la industria.

Por Gregory Piatetsky, KDnuggets.

La pregunta de la última encuesta de fue:
¿Qué metodos / algoritmos ha utilizado durante los últimos 12 meses para tratar una aplicación real relacionada con la ciencia de los datos? .

Estos son los resultados, con una población de 844 votantes.

Los 10 mejores algoritmos (y métodos) y su porcentaje de votantes son:

Sector	% de votantes	Promedio de algoritmos utilizados	% de uso de algoritmos supervisados	% de uso de algoritmos sin supervisión	% de uso de algoritmos meta	% de uso de otros métodos
Industria	59%	8,4	94%	81%	55%	83%
Gobierno / entidades sin ánimo de lucro	4,1%	9,5	91%	89%	49%	89%
Estudiantes	16%	8,1	94%	76%	47%	77%
Mundo académico	12%	7,2	95%	81%	44%	77%
Todos		8,3	94%	82%	48%	81%

Fig. 1: Los 10 mejores algoritmos y métodos que utilizan los científicos de datos
Ver tabla completa de todos los algoritmos y métodos al final de la publicación

(Nota: El objetivo de la encuesta era descubrir los mejores herramientas que utilizan los científicos de datos, pero la palabra 'herramientas' es ambigua, por lo que por simplicidad a la tabla le he dado el nombre de los 10 mejores 'algoritmos'. Por supuesto, como muchos de ustedes han señalado con razón, las estadísticas o la visualización (y algunas otras opciones) no son algoritmos, y se pueden clasificar mejor como métodos o enfoques. Mi error y cambió el nombre a este post "10 algoritmos y métodos".)

El encuestado de tipo medio utiliza algoritmos / métodos 8.1, lo que supone un gran aumento en relación con una encuesta similar realizada en 2011.

Comparándolos con la encuesta de 2011 Los algoritmos para análisis de datos / minería de datos se observa que los mejores métodos siguen siendo los de regresión, agrupaciones, arboles / reglas de decisión, y la visualización Los mayores incrementos relativos, medidos en porcentajes relativos (porcentajes de 2016 / porcentajes de 2011 - 1) son para

· Aprendizaje por refuerzo, sube un 40%, desde el 23,5% de utilización en 2011 hasta el 32,8% en 2016

· Minería de textos, sube un 30%, desde el 27,7% hasta el 35,9%

· Visualización, sube un 27% desde el 38,3% hasta el 48,7%

· Series temporales / Análisis de secuencias, sube un 25% desde el 29,6% al 37,0%

· Detección de anomalías / desviación, sube un 19% desde el 16,4% al 19,5%

· Métodos de agregación, sube un 19% desde el 28,3% hasta el 33.6%

· SVM, sube un 18% desde el 28,6% al 33.6%

· Regression, sube un 16% desde el 57,9% hasta el 67.1%

Los más populares entre las nuevas opciones añadidas en el 2016 son

· K-vecinos más cercanos, el 46% de participación

· PCA, el 43%

· Bosques aleatorios, el 38%

· Optimización, el 24%

· Redes neuronales, aprendizaje profundo, el 19%

· Descomposición en valores singulares, el 16%

Las mayores caídas son para

· Reglas de asociación, un descenso del 47%, del 28,6% al 15,3%

· Modelado Uplift, un descenso del 36%, desde un 4,8% a un 3,1% (que constituye una sorpresa, dado sólidos resultados publicados)

· Análisis de factores, un descenso del 24%, desde 18,6% a un 14,2%

· Análisis de supervivencia, desciende un 15%, desde un 9,3% a un 7,9%

La siguiente tabla muestra el uso de diferentes tipos de algoritmos: Supervisado, no supervisado, Meta, y otra por tipo de empleo. Se excluyeron de NA (4,5%) y otros (3%) tipos de empleo.

Tabla 1: Uso de los algoritmos por sectores

Sector	% de votantes	Promedio de algoritmos utilizados	% de uso de algoritmos supervisados	% de uso de algoritmos sin supervisión	% de uso de algoritmos meta	% de uso de otros métodos
Industria	59%	8,4	94%	81%	55%	83%
Gobierno / entidades sin ánimo de lucro	4,1%	9,5	91%	89%	49%	89%
Estudiantes	16%	8,1	94%	76%	47%	77%
Mundo académico	12%	7,2	95%	81%	44%	77%
Todos		8,3	94%	82%	48%	81%

Observamos que casi todo el mundo utiliza algoritmos de aprendizaje supervisado.
Los científicos de datos que trabajan para el gobierno y para la industria utilizaron diferentes tipos de algoritmos que los estudiantes o investigadores académicos,
y la industria de datos científicos eran más propensos a usar algoritmos meta.

A continuación, analizamos el uso de los 10 algoritmos y de aprendizaje profundo por sectores.

Tabla 2: Uso de los 10 algoritmos y de aprendizaje profundo por sectores

Algoritmo	Industria	Gobierno / entidades sin ánimo de lucro	Mundo académico	Estudiantes	Todos
Regresión	71%	63%	51%	64%	67%
Agrupación	58%	63%	51%	58%	57%
Decisión	59%	63%	38%	57%	55%
Visualización	55%	71%	28%	47%	49%
K-NN	46%	54%	48%	47%	46%
PCA	43%	57%	48%	40%	43%
Estadística	47%	49%	37%	36%	43%
Bosques aleatorios	40%	40%	29%	36%	38%
Series temporales	42%	54%	26%	24%	37%
Minería de textos	36%	40%	33%	38%	36%
Aprendizaje profundo	18%	9%	24%	19%	19%

Para hacer más visibles las diferencias,se calculamos la desviación del uso de algoritmo para cada tipo de sector en particular en relación con el uso promedio del algoritmo: Desviaicón (Tipo de algoritmo) = Uso (Tipo de algoritmo) / Uso (Todos los algoritmos) - 1.

Fig. 2: Desviación del uso de los algoritmos por sectores.

Observamos que los científicos de datos que trabajan para la industria son más propensos a utilizar la regresión, visualización, estadística, bosques aleatorios, y las series temporales El Gobierno / entidades sin ánimo de lucro son más propensos a utilizar la visualización, PCA, y las series temporales. Los investigadores académicos son más propensos a usar PCA y el aprendizaje profundo. Los estudiantes generalmente usan menos algoritmos, pero utilizan con más frecuencia la minería de textos y el profundo aprendizaje.

Ahora nos centramos en la participación regional, que representa a la totalidad de los visitantes de KDnuggets.

Distribución regional de los participantes en la encuesta

· Estados Unidos / Canadá, 40%

· Europa, 32%

· Asia, 18%

· América Latina, 5,0%

· África / oriente Medio, 3,4%

· Australia / Nueva Zelanda, 2,2%

Como en la encuesta de 2011, se han concentrado Industria / Gobierno en un grupo y los Investigadores académicos / Estudiantes en un segundo grupo, y se ha calculado la 'afinidad' del algoritmo para el grupo de Industria / Gobierno con la fórmula

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)

De manera que un algoritmo con afinidad 0 significa que se utiliza por igual tanto en el grupo de Industria / Gobierno como en el grupo de Investigadores académicos / Estudiantes. Cuanto mayor es la afinidad del grupo Industria / Gobierno más 'industrial' es el algoritmo, y cuanto menor es la afinidad, más 'académico' es el algoritmo.
La mayoría de los algoritmos 'industriales' fueron:

· Modelado uplift, 2,01

· Detección de anomalías, 1,61

· Análisis de supervivencia, 1,39

· Análisis de factores, 0,83

· Series temporales / Secuencias, 0,69

· Reglas de asociación, 0,5

Si bien el modelado uplift fue de nuevo el 'algoritmo' industrial más representativo, el hallazgo sorprendente es que lo utilizan muy pocos, solo el 3,1%, el algoritmo con menor porcentaje de uso en la encuesta.
La mayor parte de los algoritmos académicos fueron:

· Redes neuronales normales, -0.35

· Clasificadores bayesianos ingenuos, -0.35

· SVM, -0.24

· Aprendizaje profundo, -0.19

· EM, -0.17

La siguiente figura muestra todos los algoritmos y sus afinidades Industria / Académico,
Poll Algorithms Affinity Industry Academia

Fig. 3. Encuesta de KDnuggets Los mejores algoritmos que utilizan los científicos de datos en la Industria frente a los Académicos
La siguiente tabla contiene detalles acerca de los algoritmos, el % de encuestados que los utilizaron en las encuestas de 2016 y de 2011, la variación (% 2016 /% 2011 - 1), y la afinidad con el grupo de Industria como se explicó anteriormente.
Tabla 3: Encuesta KDnuggets de 2016: Algoritmos que utilizan los científicos de datos
La siguiente tabla contiene detalles acerca de los algoritmos, con columnas

· N: Clasificación de acuerdo con la proporción de uso

· Algoritmo: Nombre del algoritmo,

· Tipo: S, Supervisado, U, no supervisada, M, Meta, Z, Otro,

· % de encuestados que utilizan este algoritmo en la encuesta de 2016

· % de encuestados que utilizan este algoritmo en la encuesta de 2011

· variación (% 2016 /% 2011 - 1), y

· afinidad con el grupo de Industria como se ha explicado anteriormente.

Tabla 4: Encuesta KDnuggets de 2016: Algoritmos utilizados por los científicos de datos

N:	Algoritmo	Tipo	% utilizado en 2016	% utilizado en 2011	% de variación	Afinidad con el grupo de Industria
1	Regresión	S	67%	58%	16%	0,21
2	Agrupación	U	57%	52%	8,7%	0,05
3	Árboles / Reglas de decisión	S	55%	60%	-7,3%	0,21
4	Visualización	Z	49%	38%	27%	0,44
5	K-vecinos más cercanos	S	46%			0,32
6	PCA	U	43%			0,02
7	Estadística	Z	43%	48%	-11,0%	1,39
8	Bosques aleatorios	S	38%			0,22
9	Series temporales / Análisis de secuencias	Z	37%	30%	25,0%	0,69
10	Minería de textos	Z	36%	28%	29,8%	0,01
11	Métodos de agregación	M	34%	28%	18,9%	-0,17
12	SVM	S	34%	29%	17,6%	-0,24
13	Refuerzo	M	33%	23%	40%	0,24
14	Redes neuronales normales	S	24%	27%	-10,5%	-0,35
15	Optimización	Z	24%			0,07
16	Clasificadores bayesianos ingenuos	S	24%	22%	8,9%	-0,02
17	Ensacado	M	22%	20%	8,8%	0,02
18	Anomalía /detección de desviación	Z	20%	16%	19%	1,61
19	Redes neuronales de aprendizaje profundo	S	19%			-0,35
20	Descomposición en valores singulares	U	16%			0,29
21	Reglas de asociación	Z	15%	29%	-47%	0,50
22	Gráfico / Enlace / Análisis de red social	Z	15%	14%	8,0%	-0,08
23	Análisis factorial	U	14%	19%	-23,8%	0,14
24	Redes bayesianas	S	13%			-0,10
25	Algoritmos genéticos	Z	8,8%	9,3%	-6,0%	0,83
26	Análisis de supervivencia	Z	7,9%	9,3%	-14,9%	-0,15
27	EM	U	6,6%			-0,19
28	Otros métodos	Z	4,6%			-0,06
29	Modelado uplift	S	3,1%	4,8%	-36,1%	2,01