Investigadores crean un rival abierto del modelo 'razonamiento' de OpenAI por menos de $50
Investigadores de inteligencia artificial en Stanford y la Universidad de Washington lograron entrenar un modelo de IA "razonamiento" por menos de $50 en créditos de computación en la nube, según un nuevo artículo de investigación publicado el viernes pasado.
El modelo, conocido como s1, tiene un rendimiento similar a los modelos de razonamiento de vanguardia, como o1 de OpenAI y R1 de DeepSeek, en pruebas que miden habilidades de matemáticas y programación. El modelo s1 está disponible en GitHub, junto con los datos y el código utilizados para su entrenamiento.
El equipo detrás de s1 mencionó que comenzaron con un modelo base estándar y luego lo ajustaron utilizando un proceso llamado destilación, que permite extraer las capacidades de razonamiento de otro modelo de IA al entrenarlo con sus respuestas.
Los investigadores afirmaron que s1 está destilado de uno de los modelos de razonamiento de Google, Gemini 2.0 Flash Thinking Experimental. La destilación es el mismo enfoque que utilizaron investigadores de Berkeley para crear un modelo de razonamiento de IA por alrededor de $450 el mes pasado.
Para algunos, la idea de que un grupo de investigadores sin millones de dólares detrás de ellos aún puede innovar en el espacio de IA es emocionante. Sin embargo, s1 plantea preguntas reales sobre la commoditización de los modelos de IA.
¿Dónde está la barrera si alguien puede replicar un modelo de varios millones de dólares con relativamente poco dinero?
No es sorprendente que los grandes laboratorios de IA no estén contentos. OpenAI ha acusado a DeepSeek de haber recopilado datos indebidamente de su API con el propósito de destilación de modelos.
Los investigadores detrás de s1 estaban buscando la forma más sencilla de lograr un alto rendimiento en razonamiento y "escalado en el tiempo de prueba", o sea, permitir que un modelo de IA piense más antes de responder a una pregunta. Estos fueron algunos de los avances en o1 de OpenAI, que DeepSeek y otros laboratorios de IA han tratado de replicar a través de diversas técnicas.
El artículo sobre s1 sugiere que los modelos de razonamiento pueden ser destilados con un conjunto de datos relativamente pequeño utilizando un proceso llamado ajuste fino supervisado (SFT), en el cual se instruye explícitamente a un modelo de IA a imitar ciertos comportamientos en un conjunto de datos.
El SFT tiende a ser más barato que el método de aprendizaje por refuerzo a gran escala que DeepSeek empleó para entrenar su competidor al modelo o1 de OpenAI, R1.
Google ofrece acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con límites de tasa diaria, a través de su plataforma Google AI Studio. Sin embargo, los términos de uso de Google prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con las propias ofertas de IA de la compañía. Hemos contactado a Google para solicitárles un comentario.
S1 se basa en un pequeño modelo de IA estándar del laboratorio chino de IA Qwen, propiedad de Alibaba, que está disponible para descargar de forma gratuita. Para entrenar s1, los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas, junto a las respuestas a esas preguntas y el proceso de "pensamiento" detrás de cada respuesta extraída de Gemini 2.0 Flash Thinking Experimental de Google.
Después de entrenar s1, que tomó menos de 30 minutos utilizando 16 GPUs Nvidia H100, s1 logró un fuerte desempeño en ciertos benchmarks de IA, según los investigadores. Niklas Muennighoff, un investigador de Stanford que trabajó en el proyecto, comentó que podría alquilar la computación necesaria hoy por aproximadamente $20.
Los investigadores utilizaron un truco ingenioso para hacer que s1 verificara su trabajo y extendiera su "tiempo de pensamiento": le dijeron que esperara. Agregar la palabra "esperar" durante el razonamiento de s1 ayudó al modelo a llegar a respuestas ligeramente más precisas, según el artículo.
En 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de IA, lo que se destinará parcialmente a entrenar modelos de IA de próxima generación.
Esa cantidad de inversión puede seguir siendo necesaria para avanzar en la innovación en IA. La destilación ha demostrado ser un buen método para recrear de manera económica las capacidades de un modelo de IA, pero no crea nuevos modelos de IA que sean considerablemente mejores que los que están disponibles hoy en día.
IA, razonamiento, costo