WOT

Monday, January 9, 2017

La teoría de juegos revela el futuro del aprendizaje profundo

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Game Theory Reveals the Future of Deep Learning



La teoría de juegos revela el futuro del aprendizaje profundo


 


Esta publicación trata de la aparición de conceptos de la teoría de juegos en el diseño de nuevas arquitecturas de aprendizaje profundo. Los sistemas de aprendizaje profundo necesitan poder adaptarse al uso de información deficiente y a la coordinación de sistemas, 2 áreas en las cuales la teoría de juegos puede ser de utilidad.



Por Carlos Perez, Intuition Machine.



Si han seguido mis artículos hasta ahora, se habrán dado cuenta de lo que es evidente para muchos profesionales avanzados de aprendizaje profundo (AP). Se trata de la aparición de los conceptos teóricos del juego en el diseño de nuevas arquitecturas.
Esto tiene un sentido intuitivo por dos razones. 
La primera razón es que los sistemas de AP necesitarán en última instancia abordar situaciones de las que se tendrá una información incompleta. De hecho, ya hemos visto esto en AlphaGo de DeepMind que utiliza información incompleta para superar al mejor jugador del mundo en el juego de Go, tanto desde el punto de vista estratégico como táctico. 
La segunda razón es que los sistemas ya no serán monolíticos como lo son ahora, sino que involucrarán a múltiples grupos coordinadores (o competidores) de sistemas de AP. De hecho ya lo estamos viendo actualmente en la construcción de redes adversarias. Las redes adversarias consisten en redes neuronales competidoras, un generador y un discriminador. El primero trata de generar imágenes falsas mientras que el segundo intenta identificar imágenes reales. Una característica interesante de estos sistemas es que no se requiere una función de pérdida de forma cerrada. De hecho, ¡algunos sistemas tienen la sorprendente capacidad de descubrir su propia función de pérdida! Una desventaja de las redes adversarias es que son difíciles de entrenar. El aprendizaje adversario consiste en encontrar el equilibrio de Nash para un juego no cooperativo de dos jugadores. Yann Lecun, en un reciente artículo sobre aprendizaje no supervisado, describe las redes adversarias como 'la idea más fantástica en aprendizaje automático de los últimos veinte años'.
Nos encontramos aún en las primeras etapas de la utilización de la teoría de juegos, pero voy a señalar algunos artículos en los que está implícita esta teoría. David Balduzzi tiene un esquema para aprendizaje profundo que presenta un enfoque de teoría de juegos. En su artículo 'Semantics, Representations and Grammars of Deep Learning' escribe: ‘Una posible crítica es que su formulación es demasiado amplia. ... Sin embargo, es posible crear una subclase de juegos no convexos identificando la composición de funciones simples como una característica esencial común a las arquitecturas de aprendizaje profundo. La composicionalidad se formaliza a través de protocolos de comunicación distribuidos y gramáticas’.

Se trata de un enfoque muy elegante para tratar un tema que de otra manera sería desconcertante. Utiliza unos bonitos gráficos (de redes adversarias) que realzan la solidez de su enfoque:






¡Me encantaría ver un libro de texto escrito con este enfoque!
David Silver y Johannes Heinrich son autores de un artículo titulado 'Deep Reinforcement Learning from Self-Play in Imperfect-Information Games'. En él escriben: ‘Hemos presentado NFSP, el primer enfoque de refuerzo de aprendizaje profundo extremo a extremo para aprender sobre equilibrios de Nash aproximados de juegos con información imperfecta y funcionamiento individual. A diferencia de los métodos de teoría de juegos anteriores, NFSP es escalable sin tener un conocimiento previo. Además, el NFSP es el primer método de refuerzo de aprendizaje profundo conocido por converger para aproximarse a los equilibrios de Nash en funcionamiento individual’.

Jason Hartford y otros emplean el aprendizaje profundo para predecir el comportamiento humano. Escribieron en 'Deep Learning for Predicting Human Strategic Behavior': ‘La documentación sobre el comportamiento en teoría de juegos ha desarrollado una amplia gama de modelos para predecir el comportamiento humano en escenarios estratégicos al incorporar sesgos cognitivos, limitaciones derivadas de las observaciones del juego e ideas de la psicología cognitiva’.

Lo que vemos en estos 3 jugadores son 3 maneras diferentes de aplicar teoría de juegos al aprendizaje profundo. (1) Como un medio para describir y analizar nuevas arquitecturas DL. (2) Como una forma de elaborar una estrategia de aprendizaje y (3) Una forma de predecir el comportamiento de las personas participantes. ¡La última aplicación puede hacer que se le erice la piel!
Las matemáticas nos proporcionan abstracciones que nos ayudan a comprender sistemas complejos. Sin embargo, cada forma de abstracción tiene sus limitaciones ya que hay ciertos detalles que se pasan por alto. Podemos llegar a intuir algo, ayudándonos de la geometría, la dinámica y la lógica, sobre cómo este tipo de sistemas tenderá a comportarse. Lo que comenzamos a ver de esto es que estos sistemas constan de clasificadores construidos a partir de otros clasificadores. Son un sistema similar a las partes del mismo, que se debe tratar como un conjunto de muchas máquinas que interactúan. Además, estas máquinas están diseñadas para hacer predicciones sobre el futuro. Estas predicciones deben realizarse utilizando datos incompletos e imperfectos. Por lo tanto, necesitamos un marco matemático que estudie el comportamiento de muchas partes que interactúan entre sí y que tienen diferentes grupos de datos.
La visión clásica del aprendizaje automático es que el problema se puede ver como un problema de optimización donde todo lo que se necesita son algoritmos que soean capaces de buscar una solución óptima. Sin embargo, con el aprendizaje automático queremos construir máquinas que no realicen un sobreajuste de los datos, sino que sean capaces de funcionar bien con los datos que todavía tienen que encontrar. Queremos que estas máquinas hagan predicciones sobre lo desconocido. Este requisito, que se denomina generalización, es muy diferente del problema clásico de optimización. Es muy diferente del problema de la dinámica clásica donde se espera que toda la información esté disponible. Es por eso que una gran parte de la ingeniería en el aprendizaje profundo requiere restricciones adicionales en el problema de optimización. A éstas restricciones en un problema de optimización,  para mi disgusto, se les llaman 'precedentes' en algunos textos, y también regularizaciones.
¿De dónde provienen estas regularizaciones y cómo podemos seleccionar una buena regularización? ¿Cómo manejamos información imparcial? Aquí es donde el punto de vista teórico del juego se vuelve importante. A la generalización se le denomina a veces 'minimización del riesgo estructural'. En otras palabras, construimos mecanismos para manejar la generalización usando estrategias similares a la forma en la que los grupos mitigan el riesgo. Así que en realidad hemos cerrado el círculo. La teoría de juegos se describe como 'el estudio de modelos matemáticos de conflicto y cooperación entre los personas racionales e inteligentes, responsables de adoptar decisiones'. En nuestra búsqueda por comprender el aprendizaje automático, nos hemos quedado con las matemáticas, que estaban destinadas al estudio de las interacciones entre seres inteligentes.
Entre en la conversación solicitando una invitación en LinkedIn:
www.linkedin.com/groups/8584076.

Biografía: Carlos Perez es programador informático y actualmente está escribiendo un libro sobre Patrones de diseño para aprendizaje profundo'. De aquí es de donde extrae las ideas para sus entradas de blog.
Original. Publicado con permiso.

Relacionados:




No comments:

Post a Comment