Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets: Game Theory Reveals the Future of Deep Learning
La teoría de juegos revela el
futuro del aprendizaje profundo
Esta publicación trata de la aparición de conceptos de la teoría
de juegos en el diseño de nuevas arquitecturas de aprendizaje profundo. Los
sistemas de aprendizaje profundo necesitan poder adaptarse al uso de
información deficiente y a la coordinación de sistemas, 2 áreas en las cuales
la teoría de juegos puede ser de utilidad.
Si han seguido mis artículos hasta ahora, se habrán dado
cuenta de lo que es evidente para muchos profesionales avanzados de aprendizaje
profundo (AP). Se trata de la aparición de los conceptos teóricos del juego en
el diseño de nuevas arquitecturas.
Esto tiene un sentido intuitivo por dos razones.
La
primera razón es que los sistemas de AP necesitarán en última instancia abordar
situaciones de las que se tendrá una información incompleta. De hecho, ya hemos
visto esto en AlphaGo de DeepMind que utiliza información incompleta para
superar al mejor jugador del mundo en el juego de Go, tanto desde el punto de
vista estratégico como táctico.
La segunda razón es que los sistemas ya no
serán monolíticos como lo son ahora, sino que involucrarán a múltiples grupos
coordinadores (o competidores) de sistemas de AP. De hecho ya lo estamos viendo
actualmente en la construcción de redes adversarias. Las redes adversarias
consisten en redes neuronales competidoras, un generador y un discriminador. El
primero trata de generar imágenes falsas mientras que el segundo intenta
identificar imágenes reales. Una característica interesante de estos sistemas
es que no se requiere una función de pérdida de forma cerrada. De hecho,
¡algunos sistemas tienen la sorprendente capacidad de descubrir su propia
función de pérdida! Una desventaja de las redes adversarias es que son
difíciles de entrenar. El aprendizaje adversario consiste en encontrar el
equilibrio de Nash para un juego no cooperativo de dos jugadores. Yann Lecun,
en un reciente artículo sobre aprendizaje no supervisado, describe las redes
adversarias como 'la idea más fantástica en
aprendizaje automático de los últimos veinte años'.
Nos encontramos aún en las
primeras etapas de la utilización de la teoría de juegos, pero voy a señalar
algunos artículos en los que está implícita esta teoría. David Balduzzi tiene
un esquema para aprendizaje profundo que presenta un enfoque de teoría de
juegos. En su artículo 'Semantics,
Representations and Grammars of Deep Learning' escribe: ‘Una
posible crítica es que su formulación es demasiado amplia. ... Sin
embargo, es posible crear una subclase de juegos no convexos identificando la
composición de funciones simples como una característica esencial común a las
arquitecturas de aprendizaje profundo. La composicionalidad se formaliza a
través de protocolos de comunicación distribuidos y gramáticas’.
Se trata de un enfoque muy elegante para tratar un
tema que de otra manera sería desconcertante. Utiliza unos bonitos gráficos (de
redes adversarias) que realzan la solidez de su enfoque:
¡Me encantaría ver un libro de texto escrito con este
enfoque!
David
Silver y Johannes Heinrich son autores de un artículo titulado 'Deep Reinforcement Learning from
Self-Play in Imperfect-Information Games'. En él escriben:
‘Hemos presentado NFSP, el primer enfoque de refuerzo de aprendizaje profundo
extremo a extremo para aprender sobre equilibrios de Nash aproximados de juegos
con información imperfecta y funcionamiento individual. A diferencia de los
métodos de teoría de juegos anteriores, NFSP es escalable sin tener un
conocimiento previo. Además, el NFSP es el primer método de refuerzo de
aprendizaje profundo conocido por converger para aproximarse a los equilibrios
de Nash en funcionamiento individual’.
Jason Hartford y otros emplean el
aprendizaje profundo para predecir el comportamiento humano. Escribieron en 'Deep Learning for
Predicting Human Strategic Behavior': ‘La
documentación sobre el comportamiento en teoría de juegos ha desarrollado una
amplia gama de modelos para predecir el comportamiento humano en escenarios
estratégicos al incorporar sesgos cognitivos, limitaciones derivadas de las
observaciones del juego e ideas de la psicología cognitiva’.
Lo que vemos en estos 3 jugadores son 3 maneras
diferentes de aplicar teoría de juegos al aprendizaje profundo. (1) Como un
medio para describir y analizar nuevas arquitecturas DL. (2) Como una forma de
elaborar una estrategia de aprendizaje y (3) Una forma de predecir el
comportamiento de las personas participantes. ¡La última aplicación puede hacer
que se le erice la piel!
Las matemáticas nos proporcionan abstracciones que
nos ayudan a comprender sistemas complejos. Sin embargo, cada forma de
abstracción tiene sus limitaciones ya que hay ciertos detalles que se pasan por
alto. Podemos llegar a intuir algo, ayudándonos de la geometría, la dinámica y
la lógica, sobre cómo este tipo de sistemas tenderá a comportarse. Lo que
comenzamos a ver de esto es que estos sistemas constan de clasificadores
construidos a partir de otros clasificadores. Son un sistema similar a las
partes del mismo, que se debe tratar como un conjunto de muchas máquinas que
interactúan. Además, estas máquinas están diseñadas para hacer predicciones
sobre el futuro. Estas predicciones deben realizarse utilizando datos
incompletos e imperfectos. Por lo tanto, necesitamos un marco matemático que
estudie el comportamiento de muchas partes que interactúan entre sí y que
tienen diferentes grupos de datos.
La visión clásica del aprendizaje automático es que
el problema se puede ver como un problema de optimización donde todo lo que se
necesita son algoritmos que soean capaces de buscar una solución óptima. Sin
embargo, con el aprendizaje automático queremos construir máquinas que no
realicen un sobreajuste de los datos, sino que sean capaces de funcionar bien
con los datos que todavía tienen que encontrar. Queremos que estas máquinas
hagan predicciones sobre lo desconocido. Este requisito, que se denomina
generalización, es muy diferente del problema clásico de optimización. Es muy
diferente del problema de la dinámica clásica donde se espera que toda la
información esté disponible. Es por eso que una gran parte de la ingeniería en
el aprendizaje profundo requiere restricciones adicionales en el problema de
optimización. A éstas restricciones en un problema de optimización, para mi disgusto, se les llaman 'precedentes'
en algunos textos, y también regularizaciones.
¿De dónde provienen estas regularizaciones y cómo
podemos seleccionar una buena regularización? ¿Cómo manejamos información
imparcial? Aquí es donde el punto de vista teórico del juego se vuelve
importante. A la generalización se le denomina a veces 'minimización del riesgo
estructural'. En otras palabras, construimos mecanismos para manejar la
generalización usando estrategias similares a la forma en la que los grupos
mitigan el riesgo. Así que en realidad hemos cerrado el círculo. La teoría de
juegos se describe como 'el estudio de modelos matemáticos de conflicto y
cooperación entre los personas racionales e inteligentes, responsables de
adoptar decisiones'. En nuestra búsqueda por comprender el aprendizaje
automático, nos hemos quedado con las matemáticas, que estaban destinadas al
estudio de las interacciones entre seres inteligentes.
Biografía: Carlos Perez es programador informático y actualmente está escribiendo
un libro sobre Patrones de diseño para aprendizaje profundo'. De aquí es de
donde extrae las ideas para sus entradas de blog.
Relacionados:
No comments:
Post a Comment