Nota: Este artículo es una traducción del original que aparece en Linkedin: A Brief History of Machine Learning
Muchas gracias por permitir su publicación en español.
Muchas gracias por permitir su publicación en español.
Breve historia del
aprendizaje automático
Publicado el 2 de noviembre de 2016
Director de Desarrollo de
software de Amazon
El entusiasmo que han
despertados tanto el aprendizaje automático como el aprendizaje profundo, me ha
animado a recrear la historia de la inteligencia artificial tanto en el MIT como en
otros lugares y hacer un balance de la situación actual del aprendizaje
automático. Antes de empezar, repasaremos rápidamente algunos términos; el
aprendizaje es la adquisición de conocimientos, el descubrimiento es la
observación de un fenómeno nuevo y la invención es el proceso de crear algo
nuevo. El aprendizaje es necesario para la invención, pero no es una condición
suficiente para la innovación. El aprendizaje automático tal y como se presenta
en la actualidad, no inventa pero sí descubre patrones en grandes cantidades de
datos. En particular, las redes neuronales profundas han estimulado la
imaginación de muchos debido a algunas soluciones interesantes que ofrece en
los tres formatos: texto, voz e imágenes. Por lo demás, la mayoría de las redes
neuronales profundas son bastante amplias y generalmente no tienen más de diez
capas de profundidad. Así que el nombre debería haber sido realmente 'redes neuronales amplias' pero
sin embargo se ha afianzado la palabra 'profundo'.
'La pregunta de si un computador puede pensar no resulta ser más
interesante que la de si un submarino
puede nadar', dijo Dijkstra. Es más
interesante entender la evolución del aprendizaje automático, cómo empezó, dónde estamos hoy y hacia dónde
vamos desde donde estamos. El cerebro humano es algo notable; nos ha permitido
comprender la ciencia y hacer avanzar a la humanidad. La idea de imitar el
cerebro humano o incluso de mejorar las funciones cognitivas humanas es
fascinante y es uno de los objetivos de la investigación en inteligencia
artificial. Pero ni siquiera estamos cerca de conseguirlo, a pesar de llevar un
siglo investigando. Sin embargo, sigue teniendo una gran influencia en nuestra
imaginación dados sus beneficios potenciales.
Los paleontólogos creen que
al parecer, hace unos 50.000 años, después de llevar una existencia desde hace
aproximadamente cien mil años, algunos de los seres humanos, posiblemente sólo
unos pocos miles, fueron capaces de lidiar con símbolos. Este fue un paso muy importante para la evolución. Noam
Chomsky cree que fuimos capaces de crear un nuevo
concepto a partir de dos ideas o conceptos existentes sin perjudicar o limitar
los conceptos originales. Hacia el año 350 a. de C., Aristóteles ideó
la lógica silogística, el primer sistema de
razonamiento deductivo formal para establecer un modelo de cómo piensan los humanos sobre el mundo y
racionalizarlo. 2 000 años
después, Bertrand Russel y Alfred Whitehead publicaron los Principia Mathematica y sentaron las bases
para una representación formal de las matemáticas. John McCarthy defendió la causa de la lógica matemática en
la IA, y por ello se le consideró el Aristóteles de su época. En 1942, Alan
Turing demostró que una máquina podría procesar
cualquier forma de razonamiento matemático. En 1967, Marvin Minsky declaró que 'dentro de una generación el problema de crear inteligencia
artificial habrá sido resuelto de forma sustancial'. Es evidente que aún no hemos llegado a ese
punto, ya que los intentos de construir sistemas utilizando la lógica de primer
orden como la describieron los primeros filósofos ha fracasado debido a la poca
potencia de cálculo, a la incapacidad para hacer frente a la incertidumbre y a
la falta de grandes cantidades de datos.
En 1961, Minsky publicó el
artículo 'Steps towards Artificial Intelligence' en el
que trataba conceptos como búsqueda, coincidendia, probabilidad y aprendizaje,
lo cual era algo muy visionario. Turing nos dijo que era posible construir una
máquina inteligente y Minsky nos dijo cómo hacerlo. En 1986, Minsky escribió un
libro que tuvo mucha repercusión, 'The Society of Mind, 24 siglos despues de
que Platón escribiera 'Politeia'; Minsky fue el Platón de su tiempo. Minsky
nos enseñó a pensar en la programación heurística y McCarthy quería que
usáramos la lógica hasta el extremo; Newel
quería
construir modelos cognitivos para la resolución de problemas y Simon creía
que cuando vemos algo en el comportamiento que resulta complicado, es más la
consecuencia de un entorno complejo que debido a un pensador complejo.
Posteriormente, se crearon una serie de sistemas basados en modelos. Terry
Winograd construyó un sistema basado en un modelo
capaz de entender diálogos, Patrick
Winston construyó otro sistema también basado en
un modelo que aprendía y Gerald
Sussman construyó un sistema basado en un modelo
para entender bloques. En la misma época Roger
Schank creía que entender historias es la llave
para modelar la inteligencia humana. David Marr, más conocido por su trabajo sobre la visión,
la trataba como un sistema de procesado de información. La hipótesis de los
tres niveles de Marr en la ciencia cognitiva la forman el nivel de cálculo (qué
hace el sistema), el nivel algorítmico (cómo funciona) y el nivel físico (cómo
se realiza físicamente). Por ejemplo, en el caso de la visión biológica, qué
estructuras neuronales y actividades neuronales implementan el sistema visual.
En la década de 1980, los
sistemas expertos suscitaron un gran interés y su investigación se centró en
los mecanismos del conocimiento y de la inferencia. Aunque estos sistemas
hicieron un buen trabajo en sus campos de aplicación, presentaban limitaciones
en cuanto a la especialización y eran difíciles de escalar. El campo de la
IA se definió como el conjunto de tareas que realizan los computadores y que se
habían pensado específicamente como algo que solamente los seres humanos pueden
hacer. Sin embargo, una vez que estos sistemas funcionaron, ¡ya no se
consideraron sistemas de IA! Por ejemplo, hoy en día los mejores jugadores de
ajedrez resultan habitualmente derrotados por los computadores, pero sin
embargo ¡el juego de ajedrez ya no se considera realmente de AI! McCarthy
se refirió a este fenómeno como el 'efecto IA'. Watson de IBM es
un programa a un nivel equivalente al de un experto humano, pero no es
ciertamente el primero. Hace cinco años, el programa de integración simbólica de Jim Slagle del MIT constituyó
un logro muy importante. Sin embargo resulta muy difícil elaborar un programa
que haga uso del 'sentido
común' y no trate solo limitados campos del
conocimiento.
Hoy en día, en relación con
las facultades cognitivas, el debate se centra en optar por el paradigma
inspirado en la lógica o por el paradigma inspirado en la red neuronal. LeCun, Bengio y Hinton, en un
artículo de revisión en la revista Nature, fechado el 28 de mayo de 2015,
afirman que 'En lo que se refiere a las facultades
cognitivas, la cuestión de la representación el debate se centra entre optar
por el paradigma inspirado en la lógica o por el inspirado en la red neuronal.
En el paradigma inspirado en la lógica, una instancia de un símbolo es algo
para la cual la única propiedad es que sea idéntica o no a otras instancias de
símbolos. No tiene una estructura interna que sea relevante para su uso; y para
razonar con símbolos, éstos deben estar ligados a las variables con reglas de
inferencia elegidas con sensatez. Por el contrario, las redes neuronales utilizan
grandes vectores de actividad, matrices de gran peso y no linealidades
escalares para realizar el tipo de inferencia de 'intuición' rápida que
sustenta el sensato razonamiento natural'.
A Rosenblatt se
le atribuye allá por 1957 el concepto de Perceptrons, 'una
máquina que detecta, reconoce, recuerda y responde como la mente humana', pero
en un libro crítico escrito en 1969 por
Marvin Minsly y Seymour
Papert mostraron que el sistema original de
Rosenblatt era lamentablemente limitado, literalmente era ciego a algunas
sencillas funciones lógicas como XOR. En su libro expresaban: '... nuestro juicio intuitivo de que la extensión
(a sistemas multicapa) es estéril'. Esta intuición era
incorrecta y el campo de 'redes neuronales' ¡prácticamente desapareció! Geoff
Hinton construyó redes más complejas de neuronas
virtuales que permitieron a una nueva generación de redes aprender funciones
más complicadas (como la OR exclusiva que tanto había acosado al Perceptron
original). Sin embargo, incluso los nuevos modelos tenían serios problemas.
Aprendieron lentamente y de forma poco eficaz y no podían dominar ni siquiera
algunas de las actividades básicas que hacen los niños. A finales de la década
de 1990, las redes neuronales habían vuelto a caer en desgracia. En 2006,
Hinton desarrolló una nueva técnica a la que llamó aprendizaje profundo, que
ampliaba el importante trabajo previo de Yann LeCun. La novedad más importante del aprendizaje
profundo es que los modelos aprenden categorías de forma incremental,
intentando precisar categorías inferiores (como pueden ser letras) antes de
intentar adquirir categorías de alto nivel (como son las palabras).
En abril del año 2000, en un
trabajo fundamental publicado en Nature por Mriganka
Sur, y otros, en el laboratorio para la
investigación del cerebro las ciencias cognoscitivas del MIT, los
autores fueron capaces de 'recablear' los cerebros de mamíferos muy jóvenes con
éxito. Los estímulos procedentes del ojo fueron dirigidos a estructuras
cerebrales que normalmente procesan la audición. La corteza auditiva interpretó
con éxito el estímulo procedente de los ojos. Pero el resultado no fue tan
bueno como el que conseguiría la corteza visual primaria, sugiriendo que
mientras que la plasticidad del cerebro, o capacidad de adaptarse es enorme,
está limitada por una preprogramación genética. La contribución del entorno,
aunque clave para el desarrollo de la función cerebral, no 'escribe en una pizarra en blanco'. Esto
responde a una antigua pregunta: ¿el cerebro está genéticamente programado o lo
modela el entorno? Es una evidencia elocuente de la capacidad de la adaptación
del cerebro en proceso de desarrollo a los cambios en el entorno exterior, y
habla del enorme potencial y plasticidad de la corteza cerebral, en la que
residen nuestras habilidades más importantes. Esto proporcionó un cierto
fundamento teórico a la teoría de la computación de redes neuronales.
Las redes neuronales
profundas dieron lugar a un subconjunto conocido como redes neuronales
recurrentes, que eran un intento de modelar sucesos secuenciales. Las máquinas
de vectores de soporte, la regresión
logística, y las redes unidireccionales han demostrado ser muy
útiles cuando no existe explícitamente un modelado en función del tiempo. Pero
la suposición de independencia excluye el modelado de dependencias de largo
alcance. A las RNP (Redes Neuronales Profundas) también les ayudó la aparición
de GPUs que permitieron la computación paralela, que
es intrínseca a las RNP. Las RNR (Redes Neuronales Recurrentes) son modelos
conexionistas que tienen la capacidad de pasar la información de forma
selectiva en pasos secuenciales mientras que procesan datos secuenciales un
elemento a la vez. Pueden modelar la entrada y / o la salida que constan de
secuencias de elementos que no son independientes. Sin embargo, el aprendizaje
con redes recurrentes es difícil. Para las redes unidireccionales estándar, el
trabajo de optimización es del tipo NP-completo.
Aprender con redes recurrentes constituye un desafío, debido a la dificultad de
aprender dependencias a largo plazo. Los problemas de la desaparición y del
rápido crecimiento del gradiente se producen cuando los errores se propagan
hacia atrás durante muchos intervalos de tiempo. En 1997, Hochreiter y
Schmidhuber introdujeron el modelo Long Short Term Memory (LSTM) para superar el
problema de la desaparicion del gradiente. Los LSTMs han demostrado tener éxito
en reconocimiento del habla y de la escritura. De forma similar, otra variante
del modelo de red profunda es la Red neuronal convolucional (RNC) que ha tenido
mucho éxito en la clasificación de imágenes.
En conclusión, hemos
recorrido un largo camino. Las redes
profundas parecen ser muy prometedoras en algunas áreas a pesar de que resultan
muy caras en el uso de recursos de cálculo. Sin embargo, el aprendizaje
profundo es sólo una parte de un desafío aún mayor, como es el de construir
máquinas inteligentes. Carece de formas de representar las relaciones causales,
no hay formas evidentes de realizar inferencias lógicas, y todavía está muy
lejos de integrar los conocimientos
abstractos, tales como la información sobre la identificación de objetos, para
qué sirven y cómo se utilizan normalmente. Los sistemas más eficaces de IA,
como es el caso de Watson, utilizan técnicas como el aprendizaje profundo como
un elemento más de un conjunto muy complicado de técnicas, que van desde la
estadística inferencial bayesiana al razonamiento deductivo.
El nombre de 'aprendizaje
automático' es una indicación del potencial que posiblemente pueda lograr en el
futuro. En el próximo artículo, voy a hablar de cuáles son los problemas de la
industria que se pueden resolver con el actual estado de la tecnología y su
evolución en los próximos dos años.