Tecnología

Un modelo de IA alcanza el rendimiento humano en una prueba de inteligencia general

Published December 24, 2024

El 20 de diciembre, un nuevo modelo de inteligencia artificial (IA) conocido como o3, desarrollado por OpenAI, logró resultados comparables a los de los humanos en una prueba diseñada para medir la "inteligencia general".

El sistema o3 obtuvo un 85% en la prueba ARC-AGI, superando ampliamente el mejor puntaje anterior de un 55% en IA y alcanzando el promedio de los humanos. Además, destacó en un difícil examen de matemáticas.

El desarrollo de la inteligencia artificial general, conocida como AGI, es el objetivo declarado de todos los principales laboratorios de investigación en IA. A primera vista, OpenAI parece haber dado un paso significativo hacia este objetivo.

A pesar de la persistente duda, muchos investigadores y desarrolladores de IA sienten que algo ha cambiado en este ámbito. Para muchos, la posibilidad de alcanzar AGI ahora parece más real, urgente y más cerca de lo que se había previsto. ¿Están en lo cierto?

Comprendiendo la prueba de inteligencia general

Para entender lo que significa el resultado del modelo o3, es necesario comprender la prueba ARC-AGI. Técnicamente, esta prueba evalúa la "eficiencia del muestreo" de un sistema de IA al adaptarse a situaciones nuevas. Esto se refiere a cuántos ejemplos necesita ver el sistema para aprender a funcionar en un nuevo contexto.

A diferencia de otros avances recientes en IA como ChatGPT (GPT-4), que no es muy eficiente en el muestreo, el o3 se ha presentado como un modelo más adaptativo. ChatGPT, aunque consigue buenos resultados en tareas comunes, tiene dificultades con aquellas menos frecuentes debido a la menor cantidad de datos que maneja en esos casos.

Si las IA no pueden aprender de pocos ejemplos y adaptarse de manera más eficiente, su uso se limitará a tareas repetitivas y aquellas en las que el margen de error sea aceptable. La capacidad de resolver problemas desconocidos a partir de pocos datos, llamada generalización, se considera un elemento fundamental de la inteligencia.

Puntajes, patrones y reglas

El benchmark ARC-AGI examina la adaptación eficiente utilizando problemas de cuadrículas. En estos casos, la IA debe determinar el patrón que transforma una cuadrícula inicial en una final, aprendiendo de tres ejemplos y generalizando para resolver un cuarto.

Estos ejercicios son similares a las pruebas de coeficiente intelectual que algunos podrían recordar de la escuela.

No se conoce con exactitud cómo OpenAI alcanzó este resultado, pero se sugiere que el modelo o3 es altamente adaptable. Esto se traduce en su capacidad para identificar reglas generales a partir de pocos ejemplos.

Identificar las "reglas más simples" que permitan resolver un problema maximiza la capacidad de adaptarse a nuevas situaciones. No obstante, estas reglas no siempre son fáciles de definir.

Buscando cadenas de pensamiento

Aunque aún se desconocen los detalles exactos de su funcionamiento, se cree que OpenAI no optimizó intencionalmente el sistema o3 para encontrar estas reglas débiles, aunque es probable que lo haga. OpenAI comenzó con una versión general del modelo o3, que tiene la capacidad de pasar más tiempo cuestionándose sobre respuestas difíciles, para luego entrenarlo específicamente para el test ARC-AGI.

Francois Chollet, un investigador en IA, sugiere que el o3 busca diferentes "cadenas de pensamiento" para resolver su tarea, eligiendo la mejor opción a partir de reglas definidas de manera flexible.

Esto puede parecer similar a cómo el sistema AlphaGo de Google evaluó distintas secuencias de movimientos para vencer a un campeón mundial de Go. Si el o3 funciona de manera parecida, requerirá una forma de seleccionar la mejor opción entre miles de programas potencialmente válidos.

¿Más cerca de la AGI?

La pregunta permanece: ¿es el modelo o3 realmente más próximo a la AGI? Si su funcionamiento es correcto, el modelo subyacente podría no ser fundamentalmente superior a versiones anteriores.

Aún hay muchos aspectos de o3 que son desconocidos. OpenAI ha mantenido un nivel de divulgación limitado, realizando solo algunas presentaciones mediáticas y pruebas iniciales con un grupo selecto de investigadores y laboratorios de IA.

Para comprender completamente el potencial de o3, será esencial realizar evaluaciones más exhaustivas, entender su capacidad de rendimiento, y cuán a menudo tiene éxito en tareas específicas.

Cuando o3 finalmente sea lanzado al público, se podrá determinar si se comporta con una adaptabilidad cercana a la de un ser humano promedio. Si esto es cierto, podría tener un impacto revolucionario en la economía y marcar el inicio de una nueva era de inteligencia acelerada y en auto-mejoramiento.

Sin embargo, si el sistema no resulta ser tan adaptable, seguirá siendo un resultado impresionante, pero no alterará radicalmente la vida diaria tal como la conocemos.

IA, OpenAI, AGI