El secreto tonto de la IA
Dos destacados actores de la inteligencia artificial en San Francisco han lanzado un desafío al público: proponer preguntas que puedan evaluar las capacidades de los modelos de lenguaje grandes (LLMs) como Google Gemini y el o1 de OpenAI. Scale AI, una empresa que se especializa en preparar grandes cantidades de datos sobre los cuales se entrenan los LLM, se ha unido al Centro para la Seguridad de la IA (CAIS) para iniciar la iniciativa denominada El Último Examen de la Humanidad.
Con premios de 5,000 dólares (3,800 libras esterlinas) para quienes propongan las 50 preguntas seleccionadas para el examen, Scale y CAIS afirman que el objetivo es evaluar cuán cerca estamos de lograr “sistemas de IA de nivel experto” utilizando “la coalición más grande y diversa de expertos en la historia”.
¿Por qué hacer esto? Los principales LLM ya están sobresaliendo en muchas pruebas de inteligencia, matemáticas y derecho, pero es difícil saber cuán significativo es esto. En muchos casos, pueden haber aprendido las respuestas de antemano debido a la enorme cantidad de datos sobre los que fueron entrenados, incluyendo un porcentaje considerable de todo lo que existe en internet.
Los datos son fundamentales en este ámbito. Son la base del cambio de paradigma de la computación convencional a la IA, pasando de “decir” a “mostrar” a estas máquinas lo que deben hacer. Esto requiere buenos conjuntos de datos de entrenamiento, pero también buenas pruebas. Los desarrolladores suelen hacerlo utilizando datos que no se han utilizado ya para el entrenamiento, conocidos en la jerga como “conjuntos de datos de prueba”.
Si los LLM no son capaces de aprender de antemano las respuestas a pruebas establecidas como los exámenes de abogacía, probablemente lo serán pronto. El sitio de análisis de IA Epoch estima que 2028 será el año en el que las AIs habrán leído efectivamente todo lo que se ha escrito por los humanos. Un desafío igualmente importante es cómo seguir evaluando las AIs una vez que se cruce ese umbral.
Por supuesto, internet está en constante expansión, con millones de nuevos elementos añadidos a diario. ¿Podría esto resolver los problemas? Quizás, pero esto se entrelaza con otra dificultad insidiosa, referida como “colapso del modelo”. A medida que internet se inunda con material generado por IA, que luego se recircula en futuros conjuntos de entrenamiento de IA, esto podría hacer que las AIs tengan un rendimiento cada vez peor. Para superar este problema, muchos desarrolladores ya están recopilando datos de las interacciones humanas de sus AIs, añadiendo datos frescos para el entrenamiento y la prueba.
Algunos especialistas argumentan que las AIs también necesitan convertirse en “encarnadas”: moverse en el mundo real y adquirir sus propias experiencias, al igual que los humanos. Esto puede parecer poco realista hasta que te das cuenta de que Tesla lo ha estado haciendo durante años con sus automóviles. Otra oportunidad son las prendas portables para humanos, como las populares gafas inteligentes de Meta, fabricadas por Ray-Ban. Estas gafas están equipadas con cámaras y micrófonos, y pueden usarse para recopilar grandes cantidades de datos de audio y vídeo centrados en los humanos.
Pruebas específicas
Sin embargo, incluso si tales productos aseguran suficientes datos de entrenamiento en el futuro, aún existe el enigma de cómo definir y medir la inteligencia, particularmente la inteligencia general artificial (AGI), que sería una IA que iguala o supera la inteligencia humana.
Las tradicionales pruebas de CI humano han sido controvertidas durante mucho tiempo por no capturar la naturaleza multifacética de la inteligencia, que abarca desde el lenguaje hasta las matemáticas, la empatía y el sentido de orientación.
Hay un problema análogo con las pruebas utilizadas en las AIs. Hay muchas pruebas bien establecidas que abarcan tareas como resumir textos, comprenderlos, extraer inferencias correctas de información, reconocer poses y gestos humanos, y la visión por computadora.
Algunas pruebas están siendo retiradas, generalmente porque las AIs las están haciendo muy bien, pero son tan específicas que son medidas de inteligencia muy estrechas. Por ejemplo, la IA que juega al ajedrez, Stockfish, está por delante de Magnus Carlsen, el jugador humano de más alto puntaje de todos los tiempos, en el sistema de clasificación Elo. Sin embargo, Stockfish es incapaz de realizar otras tareas como comprender el lenguaje. Sería erróneo confundir sus capacidades en el ajedrez con una inteligencia más amplia.
Sin embargo, con las AIs demostrando un comportamiento más inteligente, el desafío es idear nuevos puntos de referencia para comparar y medir su progreso. Un enfoque notable proviene del ingeniero de Google, François Chollet. Él argumenta que la verdadera inteligencia radica en la capacidad de adaptarse y generalizar el aprendizaje a nuevas situaciones no vistas. En 2019, propuso el “corpus de abstracción y razonamiento” (ARC), una colección de rompecabezas en forma de cuadrículas visuales simples diseñadas para poner a prueba la capacidad de una IA para inferir y aplicar reglas abstractas.
A diferencia de referencias anteriores que prueban el reconocimiento visual de objetos al entrenar a una IA con millones de imágenes, cada una con información sobre los objetos contenidos, ARC le da a la IA ejemplos mínimos por adelantado. La IA debe averiguar la lógica del rompecabezas y no puede simplemente aprender todas las respuestas posibles.
A pesar de que las pruebas de ARC no son particularmente difíciles de resolver para los humanos, hay un premio de 600,000 dólares para el primer sistema de IA que alcance una puntuación del 85%. Al momento de escribir, estamos muy lejos de ese punto. Dos de los últimos LLM destacados, la vista previa de o1 de OpenAI y Sonnet 3.5 de Anthropic, solo alcanzan un 21% en la tabla de clasificación pública de ARC (conocida como ARC-AGI-Pub).
Otro intento reciente utilizando GPT-4o de OpenAI obtuvo un 50%, pero de manera algo controvertida, porque el enfoque generó miles de posibles soluciones antes de elegir la que daba la mejor respuesta para la prueba. Aun así, esto estaba suficientemente lejos de activar el premio, o igualar el rendimiento humano que supera el 90%.
Aunque ARC sigue siendo uno de los intentos más creíbles para probar la inteligencia genuina en IA hoy, la iniciativa de Scale/CAIS muestra que la búsqueda continúa por alternativas convincentes. (Fascinantemente, puede que nunca veamos algunas de las preguntas ganadoras. No serán publicadas en internet, para asegurar que las AIs no tengan un vistazo a las preguntas del examen).
Necesitamos saber cuándo las máquinas se están acercando al razonamiento a nivel humano y todas las cuestiones de seguridad, ética y moral que esto plantea. En ese punto, presumiblemente, nos quedaremos con una pregunta de examen aún más difícil: ¿cómo evaluar una superinteligencia? Esa es una tarea aún más desconcertante que necesitamos resolver.
IA, pruebas, inteligencia