WOT

Friday, December 30, 2016

Reto a la Internet de las cosas (IC): El sensor que indicó una alarma

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Internet of Things (IoT) Challenge: The Sensor That Cried Wolf

Muchas gracias por permitir su publicación en español.


Reto a la Internet de las cosas (IC): El sensor que indicó una alarma

 
 
ShareEtiquetas Internet of ThingsIoTSensors


William Schmarzo, el "Decano de Big Data", comparte una historia personal que identifica un tema concreto relacionado con la tecnología en general, y que contiene un mensaje importante de la Internet de las Cosas (IoT) en particular.



Por William Schmarzo, Dell EMC.

Mi hija se había llevado mi coche y me llamó desesperada (el por qué conducía mi coche cuando  tiene el suyo propio es un tema que trataremos en otra ocasión) y apareció un mensaje de advertencia en el cuadro de instrumentos:
-‘¡Motor sobrecalentado! Pare el motor y deje que se enfríe’ (vea la Figura 1).

Figura 1: Mensaje de advertencia de sobrecalentamiento del motor

Afortunadamente, mi hija estaba muy cerca de casa, así que consiguió llegar con el coche, lo paró y me llamó inmediatamente (yo estaba en la carretera en alguna parte ... Washington DC, Filadelfia, Knoxville, Chicago, Toronto ... No recuerdo en que otros lugares podría estar). De vuelta a casa llamé a un mecánico de confianza (Chuck) y me dijo que podía revisar el coche en el horario de trabajo.
Así que el viernes por la mañana conduje con cautela el coche al mecánico (a unos 2 kilómetros de distancia) y esperé el veredicto. Esta es la conversación con Chuck:
Chuck: ‘Encontramos el problema y es un sensor que está roto’.
Yo: ‘Así que el motor no estaba realmente sobrecalentado’.
Chuck: ‘Correcto’.
Yo: ‘¿Cuánto va a costar sustituir el sensor?’.
Chuck: ‘Por desgracia, el sensor está ubicado dentro del motor, por lo que no va a ser fácil llegar hasta él. Así que va a costar aproximadamente unos $ 500 sustituirlo’.
Yo: ‘Permíteme aclarar esto; ¿Hay que pagar $ 500 para solucionar un problema que no existe?’.
Chuck: [Pausa muy larga] ‘Sí’
Así que tengo que pagar $ 500 para solucionar un problema (sobrecalentamiento del motor) que no existe. Y, problemas como estos podrían ser mucho peores en nuestro nuevo mundo 'inteligente'.

El sensor que indicó una alarma
 
A medida que se añaden más y más sensores a un número cada vez mayor número de electrodomésticos, vehículos, dispositivos, maquinaria, equipos y aparatos, la probabilidad y el impacto de resultados falsos positivos, cuando se vayan conectando a la Internet de las cosas, crece exponencialmente. La interacción entre los sensores y cualquier mal funcionamiento que se produzca (si los sensores se deterioran o están mal diseñados o los piratean) aumenta dramáticamente las posibilidades de que la de Internet de las cosas envíe mensajes falsos, que los sensores 'emitan alarmas' en relación con un problema que realmente no existe.

Y además de que estos mensajes inadvertidos pueden dar lugar a un rápido deterioro de la experiencia de cliente, la corrección de estos falsos positivos cuesta dinero, dinero real, y probablemente  dinero real para el cliente.
La complejidad rara vez funciona en beneficio del usuario o del cliente. Si los fabricantes no consideran detenidamente dónde y cómo estos sensores van a mejorar la vida del cliente, es decir, mi vida, añadir más sensores a cualquier dispositivo aumenta la posibilidades de impactar de forma negativa en la experiencia de cliente. Pagar para solucionar problemas que no existen no es un buen comienzo.

Las ramificaciones de la experiencia de cliente / satisfacción de cliente
 
Muchas de las principales organizaciones del mundo digital de hoy en día se esfuerzan mucho por impulsar una experiencia de cliente más convincente y cautivadora, para simplificar las decisiones clave que sus clientes deben adoptar, tales como:
·         Uber simplifica mi decisión de cómo llegar desde donde estoy actualmente a mi destino (y con una interfaz muy creativa e informativa que me permite rastrear la ubicación exacta del conductor).
·         Amazon que está siempre intentado mejorar las experiencias de sus clientes, permite obtener mediante un solo clic las recomendaciones de 'clientes que compraron este artículo también compraron (estos otros)' como servicio principal.
·         Los servicios de petición a través de móvil de Chipotle y Starbucks (que permiten pedir mis selecciones favoritas en mis tiendas favoritas con sólo un par de clics).
·         Concur que ha hecho de la presentación de informes de gastos algo casi (casi) soportable al simplificar la entrada de partidas de gastos.

Hay otras empresas que también se dieron cuenta de la importancia de proporcionar una experiencia más atractiva al cliente, cuyos resultados se traducen en una mayor satisfacción del cliente, en su fidelidad, en su mediación y en la probabilidad de que los recomiende.
La fascinación de la Internet de las cosas con cada vez más y más sensores para capturar más y más datos, puede llevar al traste con todo esto si las organizaciones no abordan previamente un par de preguntas clave sobre su iniciativa de la Internet de las cosas:
·         ¿La recopilación de datos mejora la experiencia de usuario, o sólo proporciona al fabricante más formas de explotar mi uso personal?

·         ¿Cuáles son las ramificaciones de las preguntas anteriores en relación con las experiencias de potenciales clientes, la satisfacción de los clientes y su actuación como mediadores?

Resumen
 
No cometamos el clásico error de Silicon Valley: solo porque se puede hacer algo con la tecnología no significa que sea lo correcto. Hay que contemplar seriamente los objetivos de su estrategia en la Internet de las cosas y hacerse una sencilla pregunta:
Toda la complejidad añadida, ¿beneficia al cliente o beneficia a su organización?
Pregúntese: "¿Hasta que punto tolerarán mis clientes tener que pagar por solucionar problemas que no existen?"
Si el beneficio añadido no supera el coste adicional y la complejidad, habría que repensar la estrategia de la Internet de las cosas y su enfoque, y repensaras desde la perspectiva de sus clientes. Hacer las cosas bien con los clientes suele ser una buena estrategia.
Original. Reproducido con permiso
Artículos relacionados



Monday, December 26, 2016

Pronósticos para 2017 de aprendizaje profundo

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Predictions for Deep learning in 2017

Muchas gracias por permitir su publicación en español.


Pronósticos para 2017 sobre aprendizaje profundo



 
 


Aparte de otras predicciones sobre aprendizaje profundo, aparecerá en el mercado la primera aplicación de usuario de gran éxito, una herramienta y la biblioteca de código abierto, que conquistará a la comunidad de desarrolladores.



Por James Kobielus, IBM. 

El aprendizaje profundo se perfila como la novedad puntera a medida que nos acercamos a 2017.
Con base en las redes neuronales multicapa, esta tecnología es el fundamento de la inteligencia artificial, la computación cognitiva y la analítica en tiempo real de muchas de las nuevas aplicaciones que han tenido un gran impacto.
Para los científicos de datos, el aprendizaje profundo experimentará en el futuro un enfoque profesional de nivel superior. A continuación expongo mis predicciones sobre las principales tendencias en aprendizaje profundo para el próximo año:

·         Aparecerá en el mercado la primera aplicación de gran éxito de aprendizaje profundo: Mi pronóstico es que la primera aplicación de aprendizaje profundo que el gran público acogerá de forma entusiasta se producirá en  2017, y se utilizará para procesar la ingente cantidad de fotos que la gente capta con sus teléfonos inteligentes y compartirlas en las redes sociales. En este sentido, las oportunidades más importantes sobre aprendizaje profundo se presentarán en aplicaciones que faciliten la búsqueda de imágenes, etiquetado automáticocorreción automáticaembellecimientorenderización fotorrealistamejora de la resolución transformación de estilo, y figuras imaginarias. En los casos en los que el procesamiento de audio es importante, el primer gran éxito del aprendizaje profundo en 2017 puede muy bien producirse en la composición musical, que se podrá experimentar como si la hubiera creado un músico. El aprendizaje profundo puede también entrar en nuestras vidas en el próximo año en forma de aplicaciones inteligentes que nos llevarán a una nueva generación de portátiles que ayuden a personas discapacitadas a ver, oir, y a percibir su entorno. La tecnología definitivamente encontrará su lugar en los juguetes, juegos y electrodomésticos de consumo en 2017, especialmente en los que incorporan cámaras integradas, micrófonos y dispositivos finales de la internet de las cosas. Hasta cierto punto, los consumidores también podrán experimentar las aplicaciones del aprendizaje profundo en 2017 en  vehículos autónomos, aunque estos productos tardarán varios años en utilizarse de forma masiva debido a que sus desarrolladores se tendran que enfrentar a dificultades de tipo tecnológico, reglamentario, legal, cultural y de otros tipos.


·         Una herramienta y la biblioteca, de aprendizaje profundo, conquistará a la comunidad de desarrolladores: A medida que 2016 llega a su fin, aumenta el número de proveedores de soluciones que facilitan en código abierto sus herramientas de aprendizaje profundo, sus librerías, y otros recursos de propiedad intelectual. El año pasado, Google liberó el código de  DeepMind y de TensorFlow, Apple publicó su deep-learning research, y el grupo sin fines de lucro OpenAI inició la creación de su deep-learning benchmarking technology. Los desarrolladores pueden elegir herramientas de código abierto para el desarrollo de aplicaciones de aprendizaje profundo en Spark, Scala, Python y Java, con soporte para otros idiomas.

Además de DeepMind y TensorFlow, se encuentran actualmente otrs herramientas de código abierto para aprendizaje profundo como DeepLearning4JKerasCaffeTheanoTorchOpenBLAS y Mxnett.

En 2017 seguirán proliferando las opciones de desarrollo de código abierto para desarrolladores de aprendizaje profundo. Sin embargo, estamos seguros de que al menos uno de ellos se convertirá en el estándar de facto dentro de un año. A finales de la década, ningún desarrollo de ciencia de datos estará completo si al menos una herramienta de código abierto de aprendizaje profundo perfectamente integrado con  SparkZeppelinRHadoop. En ese sentido, mi pronóstico es que  Apache Spark evolucionará en los próximos 12-24 meses para reforzar su apoyo nativo al aprendizaje profundo.


·         Llegará al mercado una nueva generación de chipsets comerciales de bajo coste de aprendizaje profundo: El aprendizaje profundo se basa en la aplicación de algoritmos de redes neuronales multinivel a objetos de datos de grandes dimensiones. Como tal, requiere una rápida ejecución en la manipulación  de matrices en arquitecturas altamente paralelas para identificar patrones complejos y poco definidos, como objetos, rostros, voces, amenazas, etc. Para que el aprendizaje profundo de alta dimensión se convierta en algo más práctico y omnipresente, es necesario que el hardware de reconocimiento de patrones subyacente sea más rápido, más barato, más escalable, y más versátil. Además, es necesario que el hardware sea capaz de procesar conjuntos de datos que seguirán creciendo en dimensionalidad a medida que se agregan nuevas fuentes, se combinan con otros datos y se analizan mediante algoritmos de aprendizaje profundo más sofisticados. Será necesario que el hardware, desde los chipsets y los servidores hasta los clústers altamente paralelos y las nubes distribuidas, continúe creando conjuntos de datos de mayor dimensionalidad que también varían inexorablemente en volumen, velocidad y variedad.

Tanto la adopción generalizada como la incorporación de la tecnología de aprendizaje profundo dependerán de la continua mercantilización y miniaturización de tecnologías de hardware de bajo coste que aceleren el procesamiento algorítmico. En 2017 asistiremos a un despliegue masivo de una nueva generación de chipsets neuronales, unidades de procesamiento gráfico, y otras arquitecturas informáticas optimizadas de aprendizaje profundo de alto rendimiento. El creciente número de componentes a escala nanométrica proporcionarán las bases para un mayor número de nuevas soluciones de aprendizaje profundo  en los factores de forma incorporados en móviles y en la internet de las cosas. 


·         El repertorio algorítmico del aprendizaje profundo aumentará, estará más diversificado y será más sofisticado: El aprendizaje profundo sigue siendo una tecnología bastante arcana, especializada y desalentadora para la mayoría de los profesionales de datos. La creciente adopción de esta tecnología en 2017 obligará a los científicos de datos y a otros desarrolladores a aumentar sus conocimientos en técnicas como las redes neuronales recurrentes, las redes convolucionales profundas, las redes de creencia profunda, las máquinas de Boltzmann restringidas, y los autocodificadores apilados. Como se planteó en esta reciente publicación de  KDnuggets, los profesionales del aprendizaje profundo necesitarán también entender los nuevos y sofisticados enfoques, desde la programación genética y la optimización por enjambre de partículas a la economía computacional basada en agentes y los  algoritmos evolutivos.

Los científicos de datos tendrán que mantenerse al tanto de los nuevos e innovadores enfoques para realizar la extracción automatizada de características, la transferencia de aprendizaje, la reducción de la elevada dimensionalidad, y el entranamiento distribuido y acelerado de aprendizaje profundo. Los desarrolladores que trabajen en proyectos de aprendizaje profundo deberán enfrentarse a muchos desafíos que requerirán la combinación de herramientas y técnicas de diferentes instituciones clásicas de IA, como ‘los conexionistas', 'los simbolistas' y 'los revolucionarios'. Para orientar la creciente complejidad en el diseño y la optimización de las aplicaciones de aprendizaje profundo, los científicos de datos necesitarán converger a modelos estandarizados de arquitecturas, como se muestra en este reciente artículo.




Tuesday, December 20, 2016

Aprendizaje automático profundo y sus aplicaciones

Nota: Este artículo es una traducción del original cuyo autor es Mario Cho: Deep Machine Learning and Applications

Muchas gracias al autor por permitir su publicación en español.

En este enlace se puede ver la presentación en Slideshare: Aprendizaje automático profundo y sus aplicaciones

Thursday, December 15, 2016

3 COSAS QUE DEBE SABER SOBRE ‘DEEP LEARNING’

Este artículo de David Mueller 
científico senior de datos en el Centro Internacional de Ciencia de Datos de Excelencia en Teradata.  es un breve análisis sobre aprendizaje profundo.

Viene a decir que el aprendizaje profundo, como una rama del aprendizaje automático, ha tenido su oportunidad al disminuir de forma importante los costes de fabricación de modelos que trabajan en paralelo, y por otra parte, la aparición de grandes conjuntos de datos multidimensionales necesarios para entrenar estos modelos, los cuales han realizado con éxito tareas analíticas sobre datos de imágenes, video, audio y texto. Estos modelos capturan automáticamente los patrones estructurales complejos que se hallan ocultos en conjuntos de datos masivos.

Una segunda cuestión es que hasta ahora, el aprendizaje profundo era una parcela exclusivamente explotada por grandes organizaciones. Sin embargo, y dado el gran ruido mediático sobre sus expectativas, muchas empresas se han lanzado a investigar y explotar esta disciplina.

En tercer lugar, hay que tener en cuenta que se requiere una inversión inicial para manejar la complejidad del modelo. Las redes neuronales pueden necesitar horas o incluso días para entrenarse, y eso puede obstaculizar el trabajo de los equipos de ciencia de datos. La elección del modelo adecuado está sujeta a muchos factores. Aparte de maximizar la precisión del modelo teniendo en cuenta las restricciones impuestas por el conjunto de datos de entrada, es necesario considerar la interpretabilidad y la simplicidad del modelo.

Thursday, December 8, 2016

10 algoritmos de aprendizaje automático que deben conocer los ingenieros

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: The 10 Algorithms Machine Learning Engineers Need to Know

Muchas gracias al autor, James Le y a los responsables de KDnuggets por permitir su publicación en español.


10 algoritmos de aprendizaje automático que deben conocer los ingenieros





  
     


Lea este catálogo introductorio de los algoritmos de aprendizaje automático más importantes que se utilizan hoy en día y que todo ingeniero debe conocer.

Por James Le, New Story Charity.

Blackboard header
No cabe duda de que la popularidad de la especialidad de aprendizaje automático / inteligencia artificial ha experimentado un progresivo aumento en los últimos dos años. Big Data es en este momento una de las tendencias más candentes en el entorno de la tecnología, y el aprendizaje automático es increíblemente potente a la hora de hacer predicciones o sugerencias calculadas basadas en grandes cantidades de datos. Algunos de los ejemplos de aprendizaje automático que se citan con más frecuencia son los algoritmos de Netflix para hacer sugerencias sobre películas que tienen que ver con películas que ha visto el usuario en el pasado o los algoritmos de Amazon que recomiendan libros en función de los libros que el usuario ha comprado con anterioridad.
Si usted quiere aprender más sobre el aprendizaje automático, ¿por dónde empezar? En mi caso, tuve mi primer contacto cuando asistí a una clase de inteligencia artificial en mi época de estudiante en el extranjero, en Copenhague. Mi profesor era un catedrático en matemáticas aplicadas en informática en la Technical University of Denmark, y sus áreas de investigación eran la lógica y la inteligencia artificial, centrándose principalmente en el uso de la lógica para modelar la planificación, el razonamiento y la resolución de problemas emulando el modo en el que lo hacen las personas. La clase fue una mezcla entre discusiones teóricas / conceptos básicos y la resolución de problemas concretos. El libro de texto que utilizamos es uno de los clásicos de IA: Peter Norvig’s Artificial Intelligence — A Modern Approach, en el que se tratan los temas más importantes, entre los que se incluyen los agentes inteligentes, la resolución de problemas mediante búsqueda, la búsqueda de confrontación, la teoría de probabilidades, los sistemas multiagente, la IA social y la filosofía, la ética y el futuro de la IA. Al final de la clase, en equipos de 3 personas, realizamos un proyecto de programación en el que implementamos sencillos agentes de búsqueda básica que resolvían las tareas de transporte en un entorno virtual.

Aprendí mucho gracias a esa clase, y decidí seguir aprendiendo sobre este tema en particular. En las últimas semanas, he asistido en San Francisco a varias jornadas sobre tecnología, en concreto sobre aprendizaje profundo, redes neuronales, arquitectura de datos y a una conferencia de aprendizaje automático a la que asistieron muchos profesionales conocidos en este campo. Lo más importante es que me inscribí en el curso en línea de Udacity Intro to Machine Learning a principios de junio y acabo de terminarlo hace unos días. En esta entrada, quiero compartir algunos de los algoritmos de aprendizaje automático más habituales que aprendí en el curso.

Los algoritmos de aprendizaje automático pueden dividirse en 3 grandes categorías: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo. El aprendizaje supervisado es útil en los casos en que una propiedad (etiqueta) está disponible para un determinado conjunto de datos (conjunto de entrenamiento), pero en otros casos ha desaparecido y se necesita predecirla.  El aprendizaje sin supervisión es útil en los casos en que el desafío consiste en descubrir relaciones implícitas en un conjunto de datos no etiquetados (los elementos no están asignados previamente). El aprendizaje de refuerzo se sitúa entre estos dos extremos: hay alguna forma de retroalimentación disponible para cada paso o acción predictiva, pero no hay una etiqueta precisa o un mensaje de error. Como se trataba de una clase de introducción, no aprendí mucho sobre el aprendizaje de refuerzo, pero espero que los 10 algoritmos de aprendizaje supervisado y no supervisado sean suficientes para mantener el interés del lector.


Aprendizaje supervisado
 
1. Árboles para la toma de decisiones: Un árbol para la toma de decisiones es una herramienta de apoyo a la toma de decisiones que utiliza un gráfico similar a un árbol o modelo de decisiones y sus posibles consecuencias, incluidos los resultados de eventos fortuitos, los costes de los recursos y la utilidades. Eche un vistazo a la imagen para tener una idea de su estructura.


Árbol para la toma de decisiones

Desde el punto de vista de la toma de decisiones empresariales, un árbol para la toma de decisiones ofrece un mínimo número de preguntas con respuestas del tipo sí / no que hay que contestar habitualmente para evaluar la probabilidad de tomar una decisión correcta. Como se trata de un método, permite abordar el problema de una manera estructurada y sistemática para llegar a una conclusión lógica.
2. Clasificación bayesiana ingenua: Los clasificadores bayesianos ingenuos son una familia de clasificadores probabilísticos sencillos basados en la aplicación del teorema de Bayes con suposiciones de independencia fuertes (ingenuas) entre las características del objeto a clasificar. La imagen a continuación muestra la ecuación de estos clasificadores, en la que P (A | B) es probabilidad a posteriori, P (B | A) es probabilidad de B en la hipótesis de A, P (A) es probabilidad a priori y P (B) es la probabilidad de B a priori.


Clasificación de Bayes ingenua

Algunos ejemplos del mundo real son:
·         El etiquetado de un correo electrónico como spam o como no spam.
·         La clasificación de un artículo de noticias sobre tecnología, política o deportes.
·         La comprobación de la parte de un texto en la que se expresan emociones positivas, o emociones negativas.
·         Su utilización en el software de reconocimiento facial.

3. Regresión por mínimos cuadrados ordinarios: Si ha estudiado estadística, probablemente ya haya oído hablar de regresión lineal. El método para realizar la regresión lineal es el de mínimos cuadrados. Se puede pensar en la regresión lineal como el proceso de ajuste de un conjunto de puntos a una línea recta. Hay varias estrategias posibles para conseguirlo, y por ejemplo la estrategia de los 'mínimos cuadrados ordinarios' funciona así: se puede dibujar una línea y luego, para cada uno de los puntos de datos, medir la distancia vertical entre el punto y la línea y sumarlas; La línea ajustada sería aquella en la que esta suma de distancias sea lo más pequeña posible.

Regresión de mínimos cuadrados ordinarios o lineales

El término lineal se refiere al tipo de modelo que se está utilizando para ajustar los datos, mientras que los mínimos cuadrados se refieren al tipo de métrica de con la que se minimiza el error.
4. Regresión logística: La regresión logística es un potente procedimiento estadístico de modelado de  un resultado binomial con una o más variables explicativas. Mide la relación entre la variable dependiente categórica y una o más variables independientes estimando las probabilidades utilizando una función logística, que es la distribución logística acumulativa.


Regresión logística

En general, las regresiones se pueden utilizar en aplicaciones al mundo real, tales como:
·         Calificación de crédito
·         Medición del índice de efectividad de las campañas de marketing
·         Predicción de los ingresos de un determinado producto
·         Responder a la pregunta ¿Va a haber un terremoto en un día en particular?

5. Máquinas de vectores de soporte: MVS es un algoritmo de clasificación binaria. Dado un conjunto de puntos de 2 tipos en un espacio N dimensional, MVS genera un hiperplano de dimensión (N - 1) para separar esos puntos en 2 grupos. Supongamos que usted tiene una serie de puntos de 2 tipos en un papel que son linealmente separables. MVS encontrará una línea recta que separa esos puntos en 2 tipos y situada lo más lejos posible de todos esos puntos.

Máquinas de vectores de soporte

En términos de escala, algunos de los problemas más importantes que se han resuelto utilizando MVSs (con implementaciones modificadas de forma adecuada) son la publicidad en pantalla, el reconocimiento de las uniones entre un exón y un intrón (splite sites) en el ARN mensajero humano y la detección del sexo basada en imágenes, 
6. Métodos combinados: Los métodos combinados son algoritmos de aprendizaje que construyen un conjunto de clasificadores que clasifican nuevos puntos de datos haciendo uso del voto ponderado de sus predicciones. El método combinado original es un promedio bayesiano, pero los algoritmos más recientes incluyen correcciones de errores del código a la salida y los métodos de bagging y boosting.


Algoritmos de aprendizaje combinado

Entonces, ¿cómo funcionan los métodos combinados y por qué son mejores que los modelos individuales?
·         Promedian de sesgos: Si se hace el promedio de un conjunto de encuestas tanto de demócratas como de republicanos, obtendrá un promedio equilibrado.
·         Reducen la varianza: La suma de las opiniones de un grupo de modelos es menos ruidosa que la opinión única de uno de los modelos. En el mundo de las finanzas a esto se le llama diversificación: una cartera mixta constituida por acciones de muchas empresas será mucho menos variable que la formado por las acciones de una empresa. Este es el motivo por el que sus modelos serán mejores con más puntos de datos.
·         Son poco probable al sobreajuste: Si usted tiene modelos individuales que no se ajustan excesivamente, y está combinando las predicciones de cada modelo de una manera simple (promedio, promedio ponderado, regresión logística), entonces no hay lugar para el sobreajuste.

Aprendizaje no supervisado
 
7. Algoritmos de agrupamiento: El agrupamiento es la tarea que consiste en formar grupos de un conjunto de objetos de modo que los objetos del mismo grupo (agrupación) se parezcan más entre sí que a los de otros grupos.


Algoritmos de agrupación

Cada algoritmo de agrupamiento es diferente, y aquí se citan algunos de ellos:
·         Algoritmos basados en centroides
·         Algoritmos basados en conectividad
·         Algoritmos basados en densidad
·         Probabilísticos
·         De reducción del número de dimensiones
·         Redes neuronales / Aprendizaje profundo

8. Análisis de componentes principales: ACP es un procedimiento estadístico que usa una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables linealmente no correlacionadas llamadas componentes principales.


Análisis de componentes principales

Algunas de las aplicaciones de PCA incluyen la compresión, la simplificación de datos para un aprendizaje más fácil y la visualización. Tenga en cuenta que el conocimiento del dominio es muy importante para elegir si seguir adelante con PCA o no. No es adecuado en los casos en que los datos son ruidosos (todos los componentes de PCA tienen una variación bastante alta).
9. Descomposición en valores singulares: En álgebra lineal, SVD es una factorización de una matriz compleja real. Para una matriz dada M * n, existe una descomposición tal que M = UΣV, donde U y V son matrices unitarias y Σ es una matriz diagonal.


Descomposición en valores singulares

PCA es en realidad una sencilla aplicación de SVD. En visión por computador, los primeros algoritmos de reconocimiento facial utilizaron PCA y SVD para representar las caras como una combinación lineal de 'eigenfaces', para reducir el número de dimensiones, y luego hacer coincidir las caras con las identidades a través de métodos sencillos. Aunque los métodos modernos son mucho más sofisticados, muchos aún dependen de técnicas similares.
10. Análisis de componentes independientes: ACI es una técnica estadística para revelar los factores ocultos que subyacen en conjuntos de variables aleatorias, mediciones o señales. ACI define un modelo generativo para los datos multivariados observados, que se suele presentar como una gran base de datos de muestras. En el modelo, se supone que las variables de datos son mezclas lineales de algunas variables latentes desconocidas, y el sistema de mezcla es también desconocido. Se asume que las variables latentes son no gaussianas y mutuamente independientes, y se les denomina componentes independientes de los datos observados.


Análisis de componentes independientes

ACI se relaciona con PCA, pero es una técnica mucho más potente que es capaz de encontrar los factores subyacentes en las fuentes cuando fallan los métodos clásicos. Sus aplicaciones incluyen imágenes digitales, bases de datos de documentos, indicadores económicos y mediciones psicométricas.
Ahora avance un paso más y ponga en práctica su aprendizaje de los algoritmos creando aplicaciones de aprendizaje automático que proporcionen mejores experiencias para todos.
Biografía: James Le es becario de producto en New Story Charity y estudiante de informática y comunicaciones en la Denison University.
Original. Con autorización para su publicación.

Enlaces relacionados