WOT

Sunday, January 29, 2017

Breve historia del aprendizaje automático

Nota: Este artículo es una traducción del original que aparece en Linkedin: A Brief History of Machine Learning

Muchas gracias por permitir su publicación en español. 


Breve historia del aprendizaje automático
Publicado el 2 de noviembre de 2016






      Director de Desarrollo de software de Amazon

El entusiasmo que han despertados tanto el aprendizaje automático como el aprendizaje profundo, me ha animado a recrear la historia de la inteligencia artificial tanto en el MIT como en otros lugares y hacer un balance de la situación actual del aprendizaje automático. Antes de empezar, repasaremos rápidamente algunos términos; el aprendizaje es la adquisición de conocimientos, el descubrimiento es la observación de un fenómeno nuevo y la invención es el proceso de crear algo nuevo. El aprendizaje es necesario para la invención, pero no es una condición suficiente para la innovación. El aprendizaje automático tal y como se presenta en la actualidad, no inventa pero sí descubre patrones en grandes cantidades de datos. En particular, las redes neuronales profundas han estimulado la imaginación de muchos debido a algunas soluciones interesantes que ofrece en los tres formatos: texto, voz e imágenes. Por lo demás, la mayoría de las redes neuronales profundas son bastante amplias y generalmente no tienen más de diez capas de profundidad. Así que el nombre debería haber sido realmente 'redes neuronales amplias' pero sin embargo se ha afianzado la palabra 'profundo'. 
'La pregunta de si un computador puede pensar no resulta ser más interesante que la  de si un submarino puede nadar', dijo Dijkstra. Es más interesante entender la evolución del aprendizaje automático,  cómo empezó, dónde estamos hoy y hacia dónde vamos desde donde estamos. El cerebro humano es algo notable; nos ha permitido comprender la ciencia y hacer avanzar a la humanidad. La idea de imitar el cerebro humano o incluso de mejorar las funciones cognitivas humanas es fascinante y es uno de los objetivos de la investigación en inteligencia artificial. Pero ni siquiera estamos cerca de conseguirlo, a pesar de llevar un siglo investigando. Sin embargo, sigue teniendo una gran influencia en nuestra imaginación dados sus beneficios potenciales.
Los paleontólogos creen que al parecer, hace unos 50.000 años, después de llevar una existencia desde hace aproximadamente cien mil años, algunos de los seres humanos, posiblemente sólo unos pocos miles, fueron capaces de lidiar con símbolos.  Este fue un paso muy importante para la evoluciónNoam Chomsky cree que fuimos capaces de crear un nuevo concepto a partir de dos ideas o conceptos existentes sin perjudicar o limitar los conceptos originales. Hacia el año 350 a. de C., Aristóteles ideó la lógica silogística, el primer sistema de razonamiento deductivo formal para establecer un modelo de  cómo piensan los humanos sobre el mundo y racionalizarlo.  2 000 años después, Bertrand Russel Alfred Whitehead publicaron los Principia Mathematica y sentaron las bases para una representación formal de las matemáticas. John McCarthy defendió la causa de la lógica matemática en la IA, y por ello se le consideró el Aristóteles de su época. En 1942, Alan Turing demostró que una máquina podría procesar cualquier forma de razonamiento matemático. En 1967, Marvin Minsky declaró que 'dentro de una generación el problema de crear inteligencia artificial habrá sido resuelto de forma sustancial'.  Es evidente que aún no hemos llegado a ese punto, ya que los intentos de construir sistemas utilizando la lógica de primer orden como la describieron los primeros filósofos ha fracasado debido a la poca potencia de cálculo, a la incapacidad para hacer frente a la incertidumbre y a la falta de grandes cantidades de datos. 
En 1961, Minsky publicó el artículo  'Steps towards Artificial Intelligence' en el que trataba conceptos como búsqueda, coincidendia, probabilidad y aprendizaje, lo cual era algo muy visionario. Turing nos dijo que era posible construir una máquina inteligente y Minsky nos dijo cómo hacerlo. En 1986, Minsky escribió un libro que tuvo mucha repercusión, 'The Society of Mind, 24 siglos despues de que Platón escribiera 'Politeia'; Minsky fue el Platón de su tiempo. Minsky nos enseñó a pensar en la programación heurística y McCarthy quería que usáramos la lógica hasta el extremo; Newel quería construir modelos cognitivos para la resolución de problemas y Simon creía que cuando vemos algo en el comportamiento que resulta complicado, es más la consecuencia de un entorno complejo que debido a un pensador complejo. Posteriormente, se crearon una serie de sistemas basados en modelos. Terry Winograd construyó un sistema basado en un modelo capaz de entender diálogos, Patrick Winston construyó otro sistema también basado en un modelo que aprendía y Gerald Sussman construyó un sistema basado en un modelo para entender bloques. En la misma época Roger Schank creía que entender historias es la llave para modelar la inteligencia humana. David Marr, más conocido por su trabajo sobre la visión, la trataba como un sistema de procesado de información. La hipótesis de los tres niveles de Marr en la ciencia cognitiva la forman el nivel de cálculo (qué hace el sistema), el nivel algorítmico (cómo funciona) y el nivel físico (cómo se realiza físicamente). Por ejemplo, en el caso de la visión biológica, qué estructuras neuronales y actividades neuronales implementan el sistema visual. 
En la década de 1980, los sistemas expertos suscitaron un gran interés y su investigación se centró en los mecanismos del conocimiento y de la inferencia. Aunque estos sistemas hicieron un buen trabajo en sus campos de aplicación, presentaban limitaciones en cuanto a la especialización y eran difíciles de escalar. El campo de la IA se definió como el conjunto de tareas que realizan los computadores y que se habían pensado específicamente como algo que solamente los seres humanos pueden hacer. Sin embargo, una vez que estos sistemas funcionaron, ¡ya no se consideraron sistemas de IA! Por ejemplo, hoy en día los mejores jugadores de ajedrez resultan habitualmente derrotados por los computadores, pero sin embargo ¡el juego de ajedrez ya no se considera realmente de AI! McCarthy se refirió a este fenómeno como el 'efecto IA'. Watson de IBM es un programa a un nivel equivalente al de un experto humano, pero no es ciertamente el primero. Hace cinco años, el programa de integración simbólica de Jim Slagle del MIT constituyó un logro muy importante. Sin embargo resulta muy difícil elaborar un programa que haga uso del 'sentido común' y no trate solo limitados campos del conocimiento. 
Hoy en día, en relación con las facultades cognitivas, el debate se centra en optar por el paradigma inspirado en la lógica o por el paradigma inspirado en la red neuronal. LeCun, Bengio y Hinton, en un artículo de revisión en la revista Nature, fechado el 28 de mayo de 2015, afirman  que 'En lo que se refiere a las facultades cognitivas, la cuestión de la representación el debate se centra entre optar por el paradigma inspirado en la lógica o por el inspirado en la red neuronal. En el paradigma inspirado en la lógica, una instancia de un símbolo es algo para la cual la única propiedad es que sea idéntica o no a otras instancias de símbolos. No tiene una estructura interna que sea relevante para su uso; y para razonar con símbolos, éstos deben estar ligados a las variables con reglas de inferencia elegidas con sensatez. Por el contrario, las redes neuronales utilizan grandes vectores de actividad, matrices de gran peso y no linealidades escalares para realizar el tipo de inferencia de 'intuición' rápida que sustenta el sensato razonamiento natural'.
 A Rosenblatt se le atribuye allá por 1957 el concepto de Perceptrons, 'una máquina que detecta, reconoce, recuerda y responde como la mente humana', pero en un libro crítico escrito  en 1969 por Marvin Minsly y Seymour Papert mostraron que el sistema original de Rosenblatt era lamentablemente limitado, literalmente era ciego a algunas sencillas funciones lógicas como XOR.  En su libro expresaban: '... nuestro juicio intuitivo de que la extensión (a sistemas multicapa) es estéril'. Esta intuición era incorrecta y el campo de 'redes neuronales' ¡prácticamente desapareció! Geoff Hinton construyó redes más complejas de neuronas virtuales que permitieron a una nueva generación de redes aprender funciones más complicadas (como la OR exclusiva que tanto había acosado al Perceptron original). Sin embargo, incluso los nuevos modelos tenían serios problemas. Aprendieron lentamente y de forma poco eficaz y no podían dominar ni siquiera algunas de las actividades básicas que hacen los niños. A finales de la década de 1990, las redes neuronales habían vuelto a caer en desgracia. En 2006, Hinton desarrolló una nueva técnica a la que llamó aprendizaje profundo, que ampliaba el importante trabajo previo de Yann LeCun. La novedad más importante del aprendizaje profundo es que los modelos aprenden categorías de forma incremental, intentando precisar categorías inferiores (como pueden ser letras) antes de intentar adquirir categorías de alto nivel (como son las palabras).
En abril del año 2000, en un trabajo fundamental publicado en Nature por Mriganka Sur, y otros, en el laboratorio para la investigación del cerebro las ciencias cognoscitivas del MIT, los autores fueron capaces de 'recablear' los cerebros de mamíferos muy jóvenes con éxito. Los estímulos procedentes del ojo fueron dirigidos a estructuras cerebrales que normalmente procesan la audición. La corteza auditiva interpretó con éxito el estímulo procedente de los ojos. Pero el resultado no fue tan bueno como el que conseguiría la corteza visual primaria, sugiriendo que mientras que la plasticidad del cerebro, o capacidad de adaptarse es enorme, está limitada por una preprogramación genética. La contribución del entorno, aunque clave para el desarrollo de la función cerebral, no 'escribe en una pizarra en blanco'. Esto responde a una antigua pregunta: ¿el cerebro está genéticamente programado o lo modela el entorno? Es una evidencia elocuente de la capacidad de la adaptación del cerebro en proceso de desarrollo a los cambios en el entorno exterior, y habla del enorme potencial y plasticidad de la corteza cerebral, en la que residen nuestras habilidades más importantes. Esto proporcionó un cierto fundamento teórico a la teoría de la computación de redes neuronales.
Las redes neuronales profundas dieron lugar a un subconjunto conocido como redes neuronales recurrentes, que eran un intento de modelar sucesos secuenciales. Las máquinas de vectores de soporte, la regresión logística, y las redes unidireccionales han demostrado ser muy útiles cuando no existe explícitamente un modelado en función del tiempo. Pero la suposición de independencia excluye el modelado de dependencias de largo alcance. A las RNP (Redes Neuronales Profundas) también les ayudó la aparición de GPUs que permitieron la computación paralela, que es intrínseca a las RNP. Las RNR (Redes Neuronales Recurrentes) son modelos conexionistas que tienen la capacidad de pasar la información de forma selectiva en pasos secuenciales mientras que procesan datos secuenciales un elemento a la vez. Pueden modelar la entrada y / o la salida que constan de secuencias de elementos que no son independientes. Sin embargo, el aprendizaje con redes recurrentes es difícil. Para las redes unidireccionales estándar, el trabajo de optimización es del tipo NP-completo. Aprender con redes recurrentes constituye un desafío, debido a la dificultad de aprender dependencias a largo plazo. Los problemas de la desaparición y del rápido crecimiento del gradiente se producen cuando los errores se propagan hacia atrás durante muchos intervalos de tiempo. En 1997, Hochreiter y Schmidhuber introdujeron  el modelo Long Short Term Memory (LSTM) para superar el problema de la desaparicion del gradiente. Los LSTMs han demostrado tener éxito en reconocimiento del habla y de la escritura. De forma similar, otra variante del modelo de red profunda es la  Red neuronal convolucional (RNC) que ha tenido mucho éxito en la clasificación de imágenes. 
En conclusión, hemos recorrido un largo camino. Las  redes profundas parecen ser muy prometedoras en algunas áreas a pesar de que resultan muy caras en el uso de recursos de cálculo. Sin embargo, el aprendizaje profundo es sólo una parte de un desafío aún mayor, como es el de construir máquinas inteligentes. Carece de formas de representar las relaciones causales, no hay formas evidentes de realizar inferencias lógicas, y todavía está muy lejos de  integrar los conocimientos abstractos, tales como la información sobre la identificación de objetos, para qué sirven y cómo se utilizan normalmente. Los sistemas más eficaces de IA, como es el caso de Watson, utilizan técnicas como el aprendizaje profundo como un elemento más de un conjunto muy complicado de técnicas, que van desde la estadística inferencial bayesiana al razonamiento deductivo. 
El nombre de 'aprendizaje automático' es una indicación del potencial que posiblemente pueda lograr en el futuro. En el próximo artículo, voy a hablar de cuáles son los problemas de la industria que se pueden resolver con el actual estado de la tecnología y su evolución en los próximos dos años.


No comments:

Post a Comment