WOT

Sunday, January 29, 2017

Breve historia del aprendizaje automático

Nota: Este artículo es una traducción del original que aparece en Linkedin: A Brief History of Machine Learning

Muchas gracias por permitir su publicación en español. 


Breve historia del aprendizaje automático
Publicado el 2 de noviembre de 2016






      Director de Desarrollo de software de Amazon

El entusiasmo que han despertados tanto el aprendizaje automático como el aprendizaje profundo, me ha animado a recrear la historia de la inteligencia artificial tanto en el MIT como en otros lugares y hacer un balance de la situación actual del aprendizaje automático. Antes de empezar, repasaremos rápidamente algunos términos; el aprendizaje es la adquisición de conocimientos, el descubrimiento es la observación de un fenómeno nuevo y la invención es el proceso de crear algo nuevo. El aprendizaje es necesario para la invención, pero no es una condición suficiente para la innovación. El aprendizaje automático tal y como se presenta en la actualidad, no inventa pero sí descubre patrones en grandes cantidades de datos. En particular, las redes neuronales profundas han estimulado la imaginación de muchos debido a algunas soluciones interesantes que ofrece en los tres formatos: texto, voz e imágenes. Por lo demás, la mayoría de las redes neuronales profundas son bastante amplias y generalmente no tienen más de diez capas de profundidad. Así que el nombre debería haber sido realmente 'redes neuronales amplias' pero sin embargo se ha afianzado la palabra 'profundo'. 
'La pregunta de si un computador puede pensar no resulta ser más interesante que la  de si un submarino puede nadar', dijo Dijkstra. Es más interesante entender la evolución del aprendizaje automático,  cómo empezó, dónde estamos hoy y hacia dónde vamos desde donde estamos. El cerebro humano es algo notable; nos ha permitido comprender la ciencia y hacer avanzar a la humanidad. La idea de imitar el cerebro humano o incluso de mejorar las funciones cognitivas humanas es fascinante y es uno de los objetivos de la investigación en inteligencia artificial. Pero ni siquiera estamos cerca de conseguirlo, a pesar de llevar un siglo investigando. Sin embargo, sigue teniendo una gran influencia en nuestra imaginación dados sus beneficios potenciales.
Los paleontólogos creen que al parecer, hace unos 50.000 años, después de llevar una existencia desde hace aproximadamente cien mil años, algunos de los seres humanos, posiblemente sólo unos pocos miles, fueron capaces de lidiar con símbolos.  Este fue un paso muy importante para la evoluciónNoam Chomsky cree que fuimos capaces de crear un nuevo concepto a partir de dos ideas o conceptos existentes sin perjudicar o limitar los conceptos originales. Hacia el año 350 a. de C., Aristóteles ideó la lógica silogística, el primer sistema de razonamiento deductivo formal para establecer un modelo de  cómo piensan los humanos sobre el mundo y racionalizarlo.  2 000 años después, Bertrand Russel Alfred Whitehead publicaron los Principia Mathematica y sentaron las bases para una representación formal de las matemáticas. John McCarthy defendió la causa de la lógica matemática en la IA, y por ello se le consideró el Aristóteles de su época. En 1942, Alan Turing demostró que una máquina podría procesar cualquier forma de razonamiento matemático. En 1967, Marvin Minsky declaró que 'dentro de una generación el problema de crear inteligencia artificial habrá sido resuelto de forma sustancial'.  Es evidente que aún no hemos llegado a ese punto, ya que los intentos de construir sistemas utilizando la lógica de primer orden como la describieron los primeros filósofos ha fracasado debido a la poca potencia de cálculo, a la incapacidad para hacer frente a la incertidumbre y a la falta de grandes cantidades de datos. 
En 1961, Minsky publicó el artículo  'Steps towards Artificial Intelligence' en el que trataba conceptos como búsqueda, coincidendia, probabilidad y aprendizaje, lo cual era algo muy visionario. Turing nos dijo que era posible construir una máquina inteligente y Minsky nos dijo cómo hacerlo. En 1986, Minsky escribió un libro que tuvo mucha repercusión, 'The Society of Mind, 24 siglos despues de que Platón escribiera 'Politeia'; Minsky fue el Platón de su tiempo. Minsky nos enseñó a pensar en la programación heurística y McCarthy quería que usáramos la lógica hasta el extremo; Newel quería construir modelos cognitivos para la resolución de problemas y Simon creía que cuando vemos algo en el comportamiento que resulta complicado, es más la consecuencia de un entorno complejo que debido a un pensador complejo. Posteriormente, se crearon una serie de sistemas basados en modelos. Terry Winograd construyó un sistema basado en un modelo capaz de entender diálogos, Patrick Winston construyó otro sistema también basado en un modelo que aprendía y Gerald Sussman construyó un sistema basado en un modelo para entender bloques. En la misma época Roger Schank creía que entender historias es la llave para modelar la inteligencia humana. David Marr, más conocido por su trabajo sobre la visión, la trataba como un sistema de procesado de información. La hipótesis de los tres niveles de Marr en la ciencia cognitiva la forman el nivel de cálculo (qué hace el sistema), el nivel algorítmico (cómo funciona) y el nivel físico (cómo se realiza físicamente). Por ejemplo, en el caso de la visión biológica, qué estructuras neuronales y actividades neuronales implementan el sistema visual. 
En la década de 1980, los sistemas expertos suscitaron un gran interés y su investigación se centró en los mecanismos del conocimiento y de la inferencia. Aunque estos sistemas hicieron un buen trabajo en sus campos de aplicación, presentaban limitaciones en cuanto a la especialización y eran difíciles de escalar. El campo de la IA se definió como el conjunto de tareas que realizan los computadores y que se habían pensado específicamente como algo que solamente los seres humanos pueden hacer. Sin embargo, una vez que estos sistemas funcionaron, ¡ya no se consideraron sistemas de IA! Por ejemplo, hoy en día los mejores jugadores de ajedrez resultan habitualmente derrotados por los computadores, pero sin embargo ¡el juego de ajedrez ya no se considera realmente de AI! McCarthy se refirió a este fenómeno como el 'efecto IA'. Watson de IBM es un programa a un nivel equivalente al de un experto humano, pero no es ciertamente el primero. Hace cinco años, el programa de integración simbólica de Jim Slagle del MIT constituyó un logro muy importante. Sin embargo resulta muy difícil elaborar un programa que haga uso del 'sentido común' y no trate solo limitados campos del conocimiento. 
Hoy en día, en relación con las facultades cognitivas, el debate se centra en optar por el paradigma inspirado en la lógica o por el paradigma inspirado en la red neuronal. LeCun, Bengio y Hinton, en un artículo de revisión en la revista Nature, fechado el 28 de mayo de 2015, afirman  que 'En lo que se refiere a las facultades cognitivas, la cuestión de la representación el debate se centra entre optar por el paradigma inspirado en la lógica o por el inspirado en la red neuronal. En el paradigma inspirado en la lógica, una instancia de un símbolo es algo para la cual la única propiedad es que sea idéntica o no a otras instancias de símbolos. No tiene una estructura interna que sea relevante para su uso; y para razonar con símbolos, éstos deben estar ligados a las variables con reglas de inferencia elegidas con sensatez. Por el contrario, las redes neuronales utilizan grandes vectores de actividad, matrices de gran peso y no linealidades escalares para realizar el tipo de inferencia de 'intuición' rápida que sustenta el sensato razonamiento natural'.
 A Rosenblatt se le atribuye allá por 1957 el concepto de Perceptrons, 'una máquina que detecta, reconoce, recuerda y responde como la mente humana', pero en un libro crítico escrito  en 1969 por Marvin Minsly y Seymour Papert mostraron que el sistema original de Rosenblatt era lamentablemente limitado, literalmente era ciego a algunas sencillas funciones lógicas como XOR.  En su libro expresaban: '... nuestro juicio intuitivo de que la extensión (a sistemas multicapa) es estéril'. Esta intuición era incorrecta y el campo de 'redes neuronales' ¡prácticamente desapareció! Geoff Hinton construyó redes más complejas de neuronas virtuales que permitieron a una nueva generación de redes aprender funciones más complicadas (como la OR exclusiva que tanto había acosado al Perceptron original). Sin embargo, incluso los nuevos modelos tenían serios problemas. Aprendieron lentamente y de forma poco eficaz y no podían dominar ni siquiera algunas de las actividades básicas que hacen los niños. A finales de la década de 1990, las redes neuronales habían vuelto a caer en desgracia. En 2006, Hinton desarrolló una nueva técnica a la que llamó aprendizaje profundo, que ampliaba el importante trabajo previo de Yann LeCun. La novedad más importante del aprendizaje profundo es que los modelos aprenden categorías de forma incremental, intentando precisar categorías inferiores (como pueden ser letras) antes de intentar adquirir categorías de alto nivel (como son las palabras).
En abril del año 2000, en un trabajo fundamental publicado en Nature por Mriganka Sur, y otros, en el laboratorio para la investigación del cerebro las ciencias cognoscitivas del MIT, los autores fueron capaces de 'recablear' los cerebros de mamíferos muy jóvenes con éxito. Los estímulos procedentes del ojo fueron dirigidos a estructuras cerebrales que normalmente procesan la audición. La corteza auditiva interpretó con éxito el estímulo procedente de los ojos. Pero el resultado no fue tan bueno como el que conseguiría la corteza visual primaria, sugiriendo que mientras que la plasticidad del cerebro, o capacidad de adaptarse es enorme, está limitada por una preprogramación genética. La contribución del entorno, aunque clave para el desarrollo de la función cerebral, no 'escribe en una pizarra en blanco'. Esto responde a una antigua pregunta: ¿el cerebro está genéticamente programado o lo modela el entorno? Es una evidencia elocuente de la capacidad de la adaptación del cerebro en proceso de desarrollo a los cambios en el entorno exterior, y habla del enorme potencial y plasticidad de la corteza cerebral, en la que residen nuestras habilidades más importantes. Esto proporcionó un cierto fundamento teórico a la teoría de la computación de redes neuronales.
Las redes neuronales profundas dieron lugar a un subconjunto conocido como redes neuronales recurrentes, que eran un intento de modelar sucesos secuenciales. Las máquinas de vectores de soporte, la regresión logística, y las redes unidireccionales han demostrado ser muy útiles cuando no existe explícitamente un modelado en función del tiempo. Pero la suposición de independencia excluye el modelado de dependencias de largo alcance. A las RNP (Redes Neuronales Profundas) también les ayudó la aparición de GPUs que permitieron la computación paralela, que es intrínseca a las RNP. Las RNR (Redes Neuronales Recurrentes) son modelos conexionistas que tienen la capacidad de pasar la información de forma selectiva en pasos secuenciales mientras que procesan datos secuenciales un elemento a la vez. Pueden modelar la entrada y / o la salida que constan de secuencias de elementos que no son independientes. Sin embargo, el aprendizaje con redes recurrentes es difícil. Para las redes unidireccionales estándar, el trabajo de optimización es del tipo NP-completo. Aprender con redes recurrentes constituye un desafío, debido a la dificultad de aprender dependencias a largo plazo. Los problemas de la desaparición y del rápido crecimiento del gradiente se producen cuando los errores se propagan hacia atrás durante muchos intervalos de tiempo. En 1997, Hochreiter y Schmidhuber introdujeron  el modelo Long Short Term Memory (LSTM) para superar el problema de la desaparicion del gradiente. Los LSTMs han demostrado tener éxito en reconocimiento del habla y de la escritura. De forma similar, otra variante del modelo de red profunda es la  Red neuronal convolucional (RNC) que ha tenido mucho éxito en la clasificación de imágenes. 
En conclusión, hemos recorrido un largo camino. Las  redes profundas parecen ser muy prometedoras en algunas áreas a pesar de que resultan muy caras en el uso de recursos de cálculo. Sin embargo, el aprendizaje profundo es sólo una parte de un desafío aún mayor, como es el de construir máquinas inteligentes. Carece de formas de representar las relaciones causales, no hay formas evidentes de realizar inferencias lógicas, y todavía está muy lejos de  integrar los conocimientos abstractos, tales como la información sobre la identificación de objetos, para qué sirven y cómo se utilizan normalmente. Los sistemas más eficaces de IA, como es el caso de Watson, utilizan técnicas como el aprendizaje profundo como un elemento más de un conjunto muy complicado de técnicas, que van desde la estadística inferencial bayesiana al razonamiento deductivo. 
El nombre de 'aprendizaje automático' es una indicación del potencial que posiblemente pueda lograr en el futuro. En el próximo artículo, voy a hablar de cuáles son los problemas de la industria que se pueden resolver con el actual estado de la tecnología y su evolución en los próximos dos años.


Tuesday, January 17, 2017

¿Qué es aprendizaje profundo?

Nota: Este artículo es una traducción del original que aparece en el sitio de FOSSBYTES: Whatis Deep Learning?
Muchas gracias por permitir su publicación en español. 







¿Qué es aprendizaje profundo?
Resumen: Recibe el nombre de aprendizaje profundo el campo de aplicación de las redes neuronales profundas a la tarea de aprender una determinada función. Y las redes neuronales profundas son básicamente redes neuronales con más de una capa oculta. En este post trataré de hacer una introducción al aprendizaje profundo que resulte atractiva y sin entrar en detalles matemáticos.
Una pequeña historia sobre inteligencia artificial
Cuando se inició el estudio de la inteligencia artificial, todos los investigadores se centraron en 'resolver' problemas, ya que se habían formado precisamente para ese fin. Por ejemplo, encontrar automáticamente una solución a un laberinto.
Tuvo que producirse un cambio de paradigma en el pensamiento antes de que la gente comenzara a abordar los problemas de una manera diferente.
El nuevo enfoque no era resolver una tarea, sino «imitar» su solución. No todos los problemas se pueden resolver. Esto ya era sabido por los matemáticos desde hace tiempo. Bueno, uno tiene que buscar lo que puede ser una solución. Por ejemplo, la ecuación

carecía de soluciones hasta que se introdujo el concepto de números complejos. Pero, hay otros problemas que son verdaderamente irresolubles (en cierto sentido). Los problemas del mundo real son demasiado complejos para encontrarles una solución. Por lo tanto, era necesario introducir el concepto de 'imitar' una solución para abordar cuestiones muy complejas del mundo real. El mejor ejemplo para comparar estos dos paradigmas sería el computador Deep Blue que venció a Kasparov en 1996 y el computador AlphaGo que venció a Lee Sedol en 2016. El primero 'busca' el mejor movimiento en el ajedrez, mientras que el segundo 'imita' los movimientos de un jugador experto en Go.
Demostración de que algo se puede 'aprender'
Sin un sólido respaldo matemático no es posible avanzar en determinados campos de investigación. Por lo tanto, las tareas se tradujeron en problemas de matemáticas, e 'imitar' una solución se tradujo a 'ajustar' una función.
Entonces, ¿se pueden 'ajustar' todas las funciones? '¡La respuestas es 'sí'!' O al menos la mayoría de las funciones que necesitamos para tratar los problemas del mundo real. A esto se le conoce como teorema de aproximación universal (TAU). Y requiere una determinada arquitectura, a la que llamaremos red neuronal. Así que se desarrolló una arquitectura que garantizaba que cualquier función se puede ajustar con la precisión que se necesite. Algunas observaciones interesantes sobre esta arquitectura fueron:
·         Un conjunto de entradas discretas era capaz de aproximarse  incluso a funciones continuas (es decir, funciones sin saltos bruscos).
·         Al menos era necesario utilizar una capa más (llamada capa oculta) de nodos discretos.
·         La información de un nodo podía volver hacia atrás y utilizarse como entrada, parecido a un mecanismo de retroalimentación.
·         Debía incorporarse a la red algún tipo de 'no linealidad' (llamada función de activación).
Imitación y suposición
El problema con el método descrito anteriormente es que debemos saber cuál es la solución al problema. Esto plantea la pregunta de que si conocemos la solución ¿por qué molestarse en aproximarse a ella? La respuesta es doble: 1) El cálculo de la solución exacta puede requerir una gran cantidad de recursos de computación. 2) Muchos de los problemas de IA en el mundo real hoy en día consisten en imitar el comportamiento y las tareas de las personas.
Pero, el primer problema sigue sin respuesta. Debemos conocer la solución de antemano. Para resolver una tarea sin conocer la solución, un computador tiene que 'hacer suposiciones', 'suposiciones' con fundamento. Por lo tanto, hay una bifurcación en el tipo de 'problemas de aprendizaje': ..imitación y suposición. El primero se denomina 'aprendizaje supervisado' y el segundo 'aprendizaje no supervisado'. Un ejemplo de aprendizaje no supervisado sería agrupar un conjunto de datos basados en algún atributo. El conjunto de estos métodos se denomina aprendizaje automático.
Fig 1 : Aprendizaje supervisado


Fig 2: Aprendizaje no supervisado

En el aprendizaje supervisado, se facilitaron los puntos de datos (rojo) y la red aprendió a ajustar la función (azul), en este caso, una función sinc. En el aprendizaje sin supervisión, sólo se le dio la imagen y se le dijo a la red que clasificara la imagen basada en el color de cada píxel en 8 grupos. Como se pudo comprobar, la red hizo un buen trabajo agrupando los píxeles.
Profundizando en las redes neuronales
Entonces, ¿qué es eso tan profundo en las redes neuronales profundas? Las redes neuronales profundas son básicamente redes neuronales con más de una capa oculta. Por lo tanto, se ven 'más extensas', en lugar de verse 'más profundas'. Hay pocas preguntas que responder sobre esto.
Si una red con solo una capa oculta puede aproximarse a cualquier función (TAU), ¿por qué agregar varias capas? Esta es una de las preguntas fundamentales. Cada capa oculta actúa como un 'extractor de características'. Si tenemos una sola capa oculta, existen dos problemas:
·         La capacidad de la red en lo que se refiere a extracción de características es mucho menor, lo que significa que tenemos que proporcionar las características adecuadas a la red. Esto añade una operación de extracción de características que es específica para esa aplicación. Por lo tanto, la red, en cierta medida, pierde su capacidad para aprender una variedad de funciones, y ya no se puede decir que sea 'automática'.
·         Incluso para aprender las características que se le indican, el número de nodos en las capas ocultas crece exponencialmente, lo que causa problemas aritméticos durante el aprendizaje.
Para resolver esto, necesitamos que la red aprenda las características por sí misma. Por lo tanto, agregamos varias capas ocultas cada una con un menor número de nodos. Y, ¿cómo de bien funciona esto? Estas redes neuronales profundas aprendieron a jugar con los juegos Atari simplemente mirando las imágenes de la pantalla.
El(los) avance(s)
Así que, ¿por qué y cómo tuvo tanto éxito el aprendizaje profundo en los últimos años? En lo que se refiere a la parte del porqué, las ideas revolucionarias sobre algoritmos de aprendizaje profundo las aportó el Dr. Goeffry Hinton en los años 90. En cuanto a la parte del quién, fueron responsables un montón de factores. Había disponibles cantidades ingentes de datos. Habían mejorado las arquitecturas de hardware. Se crearon bibliotecas de software. Se consiguieron grandes avances en el campo de la optimización convexa.
Actuar con precaución
Un descubrimiento relativamente reciente sugiere que estos modelos profundamente entrenados son altamente vulnerables a los ataques. Las RNP tienen éxito si no hay efectos adversos en los datos. Lo ilustra la siguiente imagen:

Esta vulnerabilidad se debe a que el modelo es muy sensible a las características. Cambios imperceptibles por el ser humano de las características pueden inhabilitar completamente la red para el aprendizaje. Se han propuesto nuevos modelos, llamados  redes adversarias, pero esa es una historia que dejamos para otro día. Otro efecto frecuente es el ajuste excesivo de los datos, que puede conducir a una alta precisión en el entrenamiento, pero se produce un rendimiento muy bajo durante las pruebas.
Entonces, ¿Qué piensa usted sobre el futuro del aprendizaje profundo? ¿Cuáles son los problemas que se plantean en el aprendizaje profundo? Coméntelo y compártalo con nosotros.

Monday, January 9, 2017

La teoría de juegos revela el futuro del aprendizaje profundo

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Game Theory Reveals the Future of Deep Learning



La teoría de juegos revela el futuro del aprendizaje profundo


 


Esta publicación trata de la aparición de conceptos de la teoría de juegos en el diseño de nuevas arquitecturas de aprendizaje profundo. Los sistemas de aprendizaje profundo necesitan poder adaptarse al uso de información deficiente y a la coordinación de sistemas, 2 áreas en las cuales la teoría de juegos puede ser de utilidad.



Por Carlos Perez, Intuition Machine.



Si han seguido mis artículos hasta ahora, se habrán dado cuenta de lo que es evidente para muchos profesionales avanzados de aprendizaje profundo (AP). Se trata de la aparición de los conceptos teóricos del juego en el diseño de nuevas arquitecturas.
Esto tiene un sentido intuitivo por dos razones. 
La primera razón es que los sistemas de AP necesitarán en última instancia abordar situaciones de las que se tendrá una información incompleta. De hecho, ya hemos visto esto en AlphaGo de DeepMind que utiliza información incompleta para superar al mejor jugador del mundo en el juego de Go, tanto desde el punto de vista estratégico como táctico. 
La segunda razón es que los sistemas ya no serán monolíticos como lo son ahora, sino que involucrarán a múltiples grupos coordinadores (o competidores) de sistemas de AP. De hecho ya lo estamos viendo actualmente en la construcción de redes adversarias. Las redes adversarias consisten en redes neuronales competidoras, un generador y un discriminador. El primero trata de generar imágenes falsas mientras que el segundo intenta identificar imágenes reales. Una característica interesante de estos sistemas es que no se requiere una función de pérdida de forma cerrada. De hecho, ¡algunos sistemas tienen la sorprendente capacidad de descubrir su propia función de pérdida! Una desventaja de las redes adversarias es que son difíciles de entrenar. El aprendizaje adversario consiste en encontrar el equilibrio de Nash para un juego no cooperativo de dos jugadores. Yann Lecun, en un reciente artículo sobre aprendizaje no supervisado, describe las redes adversarias como 'la idea más fantástica en aprendizaje automático de los últimos veinte años'.
Nos encontramos aún en las primeras etapas de la utilización de la teoría de juegos, pero voy a señalar algunos artículos en los que está implícita esta teoría. David Balduzzi tiene un esquema para aprendizaje profundo que presenta un enfoque de teoría de juegos. En su artículo 'Semantics, Representations and Grammars of Deep Learning' escribe: ‘Una posible crítica es que su formulación es demasiado amplia. ... Sin embargo, es posible crear una subclase de juegos no convexos identificando la composición de funciones simples como una característica esencial común a las arquitecturas de aprendizaje profundo. La composicionalidad se formaliza a través de protocolos de comunicación distribuidos y gramáticas’.

Se trata de un enfoque muy elegante para tratar un tema que de otra manera sería desconcertante. Utiliza unos bonitos gráficos (de redes adversarias) que realzan la solidez de su enfoque:






¡Me encantaría ver un libro de texto escrito con este enfoque!
David Silver y Johannes Heinrich son autores de un artículo titulado 'Deep Reinforcement Learning from Self-Play in Imperfect-Information Games'. En él escriben: ‘Hemos presentado NFSP, el primer enfoque de refuerzo de aprendizaje profundo extremo a extremo para aprender sobre equilibrios de Nash aproximados de juegos con información imperfecta y funcionamiento individual. A diferencia de los métodos de teoría de juegos anteriores, NFSP es escalable sin tener un conocimiento previo. Además, el NFSP es el primer método de refuerzo de aprendizaje profundo conocido por converger para aproximarse a los equilibrios de Nash en funcionamiento individual’.

Jason Hartford y otros emplean el aprendizaje profundo para predecir el comportamiento humano. Escribieron en 'Deep Learning for Predicting Human Strategic Behavior': ‘La documentación sobre el comportamiento en teoría de juegos ha desarrollado una amplia gama de modelos para predecir el comportamiento humano en escenarios estratégicos al incorporar sesgos cognitivos, limitaciones derivadas de las observaciones del juego e ideas de la psicología cognitiva’.

Lo que vemos en estos 3 jugadores son 3 maneras diferentes de aplicar teoría de juegos al aprendizaje profundo. (1) Como un medio para describir y analizar nuevas arquitecturas DL. (2) Como una forma de elaborar una estrategia de aprendizaje y (3) Una forma de predecir el comportamiento de las personas participantes. ¡La última aplicación puede hacer que se le erice la piel!
Las matemáticas nos proporcionan abstracciones que nos ayudan a comprender sistemas complejos. Sin embargo, cada forma de abstracción tiene sus limitaciones ya que hay ciertos detalles que se pasan por alto. Podemos llegar a intuir algo, ayudándonos de la geometría, la dinámica y la lógica, sobre cómo este tipo de sistemas tenderá a comportarse. Lo que comenzamos a ver de esto es que estos sistemas constan de clasificadores construidos a partir de otros clasificadores. Son un sistema similar a las partes del mismo, que se debe tratar como un conjunto de muchas máquinas que interactúan. Además, estas máquinas están diseñadas para hacer predicciones sobre el futuro. Estas predicciones deben realizarse utilizando datos incompletos e imperfectos. Por lo tanto, necesitamos un marco matemático que estudie el comportamiento de muchas partes que interactúan entre sí y que tienen diferentes grupos de datos.
La visión clásica del aprendizaje automático es que el problema se puede ver como un problema de optimización donde todo lo que se necesita son algoritmos que soean capaces de buscar una solución óptima. Sin embargo, con el aprendizaje automático queremos construir máquinas que no realicen un sobreajuste de los datos, sino que sean capaces de funcionar bien con los datos que todavía tienen que encontrar. Queremos que estas máquinas hagan predicciones sobre lo desconocido. Este requisito, que se denomina generalización, es muy diferente del problema clásico de optimización. Es muy diferente del problema de la dinámica clásica donde se espera que toda la información esté disponible. Es por eso que una gran parte de la ingeniería en el aprendizaje profundo requiere restricciones adicionales en el problema de optimización. A éstas restricciones en un problema de optimización,  para mi disgusto, se les llaman 'precedentes' en algunos textos, y también regularizaciones.
¿De dónde provienen estas regularizaciones y cómo podemos seleccionar una buena regularización? ¿Cómo manejamos información imparcial? Aquí es donde el punto de vista teórico del juego se vuelve importante. A la generalización se le denomina a veces 'minimización del riesgo estructural'. En otras palabras, construimos mecanismos para manejar la generalización usando estrategias similares a la forma en la que los grupos mitigan el riesgo. Así que en realidad hemos cerrado el círculo. La teoría de juegos se describe como 'el estudio de modelos matemáticos de conflicto y cooperación entre los personas racionales e inteligentes, responsables de adoptar decisiones'. En nuestra búsqueda por comprender el aprendizaje automático, nos hemos quedado con las matemáticas, que estaban destinadas al estudio de las interacciones entre seres inteligentes.
Entre en la conversación solicitando una invitación en LinkedIn:
www.linkedin.com/groups/8584076.

Biografía: Carlos Perez es programador informático y actualmente está escribiendo un libro sobre Patrones de diseño para aprendizaje profundo'. De aquí es de donde extrae las ideas para sus entradas de blog.
Original. Publicado con permiso.

Relacionados: