El último modelo de IA de Alibaba supera al o1-mini de OpenAI y está a la par del DeepSeek R1
Alibaba Cloud ha presentado un nuevo modelo de IA enfocado en el razonamiento que logra igualar el rendimiento de competidores mucho más grandes a pesar de ser solo una fracción de su tamaño.
La división de computación en la nube del gigante tecnológico chino ha desafiado la noción de que más grande siempre es mejor en el mundo de la IA.
Llamado QwQ-32B, el modelo se basa en la fundación Qwen2.5-32B de Alibaba y utiliza 32.5 mil millones de parámetros, mientras entrega un rendimiento comparable al DeepSeek R1, que cuenta con impresionantes 671 mil millones de parámetros.
Este logro, reminiscentes de David vs. Goliat, ha captado la atención de investigadores y desarrolladores de IA a nivel mundial.
"Este resultado notable subraya la efectividad del aprendizaje por refuerzo (RL) cuando se aplica a modelos base robustos que están preentrenados con un amplio conocimiento del mundo," indicó el equipo de Qwen de Alibaba en su publicación de anuncio.
Según la empresa, QwQ-32B se destaca especialmente en tareas de razonamiento matemático y programación.
"Descubrimos que el entrenamiento por refuerzo puede mejorar continuamente el rendimiento, especialmente en matemáticas y codificación, y observamos que la escala continua de RL puede ayudar a un modelo de tamaño medio a lograr un rendimiento competitivo frente a modelos de Ocupación Mixta (MoE) gigantes," escribió Alibaba en su tweet de anuncio.
En las pruebas internas, QwQ-32B obtuvo un 65.2% en GPQA (una prueba de razonamiento científico a nivel de posgrado), un 50% en AIME (matemáticas avanzadas) y un impresionante 90.6% en MATH-500, que cubre una amplia gama de problemas matemáticos.
La comunidad de IA ha respondido con entusiasmo. "¡Absolutamente me encanta!," comentó Vaibhav Srivastav, un científico de datos e investigador en IA, mientras que Julien Chaumond, CTO de Huggin Face, dijo que el modelo "cambia todo".
También aparecieron algunos memes divertidos al respecto.
Además, Ollama y Groq anunciaron que han implementado soporte para el modelo, lo que significa que los usuarios ahora pueden programar agentes de código abierto y utilizar este modelo en aplicaciones de terceros, así como lograr velocidades de inferencia récord con la infraestructura de Groq.
Este aumento en la eficiencia marca un posible cambio en la industria, donde la tendencia ha sido hacia modelos cada vez más grandes. QwQ-32B, en cambio, adopta un enfoque similar al de DeepSeek R1, demostrando que las técnicas de entrenamiento inteligentes pueden ser tan importantes como el conteo de parámetros en el rendimiento de la IA.
Aun así, QwQ-32B tiene limitaciones. A veces enfrenta dificultades con la mezcla de idiomas y puede caer en bucles de razonamiento recursivos que afectan su eficiencia.
Además, al igual que otros modelos de IA chinos, cumple con los requisitos regulatorios locales que pueden restringir las respuestas sobre temas políticamente sensibles y tiene una ventana de contexto de 32K tokens algo limitada.
Acceso al código fuente
A diferencia de muchos sistemas de IA avanzados, especialmente de América y países occidentales, que operan detrás de muros de pago, QwQ-32B está disponible como software de código abierto bajo la licencia Apache 2.0.
El lanzamiento sigue a la presentación anterior de Alibaba en enero de Qwen 2.5-Max, que la compañía afirmó que superó a los competidores "en casi todos los aspectos".
Ese lanzamiento anterior ocurrió durante las celebraciones del Año Nuevo Lunar, destacando la presión competitiva que enfrentan las empresas tecnológicas chinas en el rápidamente cambiante paisaje de la IA.
La influencia de los modelos chinos en el estado de la industria de la IA es tal que en una declaración anterior sobre este tema, el expresidente Donald Trump describió su rendimiento como un "llamado de atención" para Silicon Valley, pero los vio como "una oportunidad más que como una amenaza".
Cuando se lanzó DeepSeek R1, provocó una caída significativa en el mercado de valores, pero QwQ-32B no ha afectado a los inversores de la misma manera.
El Nasdaq ha bajado en general, principalmente por razones políticas más que por un temor atribuido a la influencia de Alibaba.
Aún así, Alibaba ve este lanzamiento como solo el principio.
"Este es el primer paso de Qwen para escalar el Aprendizaje por Refuerzo y mejorar sus capacidades de razonamiento," declaró la compañía en su publicación del blog.
"Estamos seguros de que combinar modelos base más robustos con RL, impulsado por recursos computacionales escalados, nos llevará más cerca de alcanzar la Inteligencia Artificial General (AGI)."
Editado por Sebastiaan Sinclair
Alibaba, IA, DeepSeek