Premio Turing para académicos de IA por sus técnicas de aprendizaje por refuerzo
Últimamente, hemos sido testigos de algunos de los logros más impresionantes en el campo de la inteligencia artificial, logrados a través de una técnica que permite que las computadoras actúen de manera aleatoria a partir de un conjunto de opciones, recibiendo recompensas o castigos por cada movimiento correcto o incorrecto.
Esta técnica fue usada de manera destacada en AlphaZero, el programa de Google DeepMind de 2016, que logró dominar los juegos de ajedrez, shogi y Go en 2018. El mismo enfoque ayudó a AlphaStar a alcanzar un nivel de "gran maestro" en el videojuego Starcraft II.
El miércoles, dos académicos de inteligencia artificial fueron reconocidos por sus contribuciones al aprendizaje por refuerzo, un enfoque amplio que permite que una computadora navegue en un entorno desconocido.
Andrew G. Barto, profesor emérito en el Departamento de Ciencias de la Información y la Computación de la Universidad de Massachusetts, Amherst, y Richard S. Sutton, profesor de informática en la Universidad de Alberta, Canadá, recibieron el Premio Turing 2025 de la Asociación de Maquinaria Computacional (ACM).
La ACM menciona en su reconocimiento que "Barto y Sutton introdujeron las ideas principales, construyeron las bases matemáticas y desarrollaron algoritmos importantes para el aprendizaje por refuerzo, uno de los enfoques más destacados para crear sistemas inteligentes." Este honor de la ACM incluye un premio de $1 millón y es considerado el equivalente al Premio Nobel en la industria de la computación.
El aprendizaje por refuerzo se puede entender mediante la analogía con un ratón en un laberinto: el ratón debe encontrar su camino a través de un entorno desconocido hasta alcanzar una recompensa final, que es el queso. Para hacerlo, el ratón tiene que aprender qué movimientos lo llevan hacia adelante y cuáles lo conducen a callejones sin salida.
Neurocientíficos y otros han propuesto que entidades inteligentes, como los ratones, cuentan con un "modelo interno del mundo" que les permite retener lecciones aprendidas al explorar laberintos y otros desafíos, así como formular planes. Sutton y Barto plantearon que una computadora podría formar un modelo interno del estado de su propio mundo.
Los programas de aprendizaje por refuerzo absorben información sobre el entorno, ya sea un laberinto o un tablero de ajedrez, como entrada. Al principio, el programa actúa de manera algo aleatoria, probando diferentes movimientos en ese entorno. Los movimientos logran recompensas o no logran la recompensa deseada.
Ese feedback, tanto positivo como negativo, comienza a formar un cálculo dentro del programa, una estimación de qué recompensas pueden obtenerse al realizar diferentes movimientos. Basándose en esa estimación, el programa elabora una "política" para guiar sus acciones futuras hacia el éxito.
A un nivel más amplio, estos programas deben equilibrar las tácticas de explorar nuevas opciones de acción y explotar las opciones ya conocidas, ya que ninguna de las dos estrategias por sí sola llevará al éxito.
Para aquellos interesados en profundizar más sobre el tema, se puede consultar el texto escrito por Sutton y Barto en 2018.
El concepto de aprendizaje por refuerzo que Sutton y Barto utilizan no es el mismo que el mencionado por OpenAI y otros proveedores de inteligencia artificial con modelos de lenguaje extensos. En este contexto, OpenAI y otros aplican el "aprendizaje por refuerzo a partir de la retroalimentación humana" (RLHF) para dar forma a la salida de modelos como GPT para que sean inofensivos y útiles, aunque esta es una técnica diferente, donde solo el nombre ha sido comparado.
Sutton, que fue también un científico de investigación distinguido en DeepMind de 2017 a 2023, ha enfatizado en años recientes que el aprendizaje por refuerzo es una teoría del pensamiento. Durante un simposio sobre IA en 2020, Sutton lamentó que "hay muy poca teoría computacional" en la IA actual.
"El aprendizaje por refuerzo es la primera teoría computacional de la inteligencia," declaró Sutton. "La IA necesita una teoría computacional acordada de la inteligencia," añadió, y "RL es el candidato sobresaliente para eso." El aprendizaje por refuerzo podría tener implicaciones también sobre cómo se puede desarrollar la creatividad y el juego libre como expresión de inteligencia, incluso en la inteligencia artificial.
Barto y Sutton han subrayado la importancia del juego en el aprendizaje. Durante el simposio de 2020, Sutton observó que en el aprendizaje por refuerzo, la curiosidad desempeña un "papel de bajo nivel" para impulsar la exploración. "En años recientes, la gente ha comenzado a considerar un mayor papel para lo que nosotros denominamos como 'juego'," dijo Sutton. "Establecemos metas que no necesariamente son útiles, pero que pueden serlo más adelante. Yo establezco una tarea y pregunto, ¿qué soy capaz de hacer? ¿Cuáles son mis posibilidades?"
Sutton sugirió que el juego podría ser una de las "grandes cosas" que los seres humanos hacen. "El juego es algo grande," afirmó.
IA, premio, tecnología