China lanza un rival económico y abierto a ChatGPT, emocionando a científicos y preocupando a Silicon Valley
DeepSeek, un laboratorio de inteligencia artificial (IA) en China, ha presentado un nuevo modelo que compite con ChatGPT de OpenAI. Este anuncio ha emocionado a muchos científicos y ha generado preocupación en Silicon Valley.
El modelo, conocido como DeepSeek-V3, fue revelado a finales de diciembre de 2024 y se afirma que se construyó en dos meses con un costo de solo 5.58 millones de dólares, una cifra notablemente inferior a la que gastan sus competidores en Silicon Valley.
Recientemente, DeepSeek lanzó otro modelo llamado DeepSeek-R1. En pruebas de referencia realizadas por terceros, DeepSeek-V3 igualó las capacidades del GPT-4o de OpenAI y del Claude Sonnet 3.5 de Anthropic, superando a otros modelos como el Llama 3.1 de Meta y el Qwen2.5 de Alibaba en tareas de resolución de problemas, codificación y matemáticas.
El modelo R1 ha demostrado superar también al nuevo modelo o1 de ChatGPT en muchas de las pruebas realizadas. Este rendimiento impresionante, a un costo significativamente más bajo que otros modelos, su naturaleza semi-abierta y su entrenamiento con mucho menos procesamiento gráfico han impresionado a los expertos en IA y puesto de relieve la posibilidad de que los modelos de IA de China superen a los de EE. UU.
Satya Nadella, CEO de Microsoft —socio de OpenAI—, comentó en el Foro Económico Mundial en Davos, Suiza, que "debemos tomar muy en serio los desarrollos que provienen de China".
Los sistemas de IA aprenden utilizando datos de entrenamiento obtenidos a partir de la entrada humana, lo que les permite generar resultados basados en las probabilidades de diferentes patrones presentes en ese conjunto de datos de entrenamiento. Para los modelos de lenguaje grande, estos datos son texto. Por ejemplo, el GPT-3.5 de OpenAI fue entrenado con aproximadamente 570 GB de datos textuales extraídos de diversas fuentes como libros y artículos en línea.
Los modelos de razonamiento, como R1 y o1, son una versión mejorada de los LLM estándar que utilizan un método denominado "cadena de pensamiento" para retroceder y reevaluar su lógica, lo que les permite abordar tareas más complejas con mayor precisión. Esto ha otorgado popularidad a los modelos de razonamiento entre científicos e ingenieros que desean integrar la IA en sus trabajos.
A diferencia del o1 de ChatGPT, DeepSeek es un modelo "de pesos abiertos" que, aunque su conjunto de datos de entrenamiento sigue siendo propietario, permite a los científicos examinar y modificar su algoritmo. También es importante su precio reducido para los usuarios, que es 27 veces menor que el de o1.
Además de su rendimiento, el entusiasmo en torno a DeepSeek se debe a su eficiencia de costos; el modelo fue desarrollado con un presupuesto extremadamente limitado en comparación con los millones que gastaron sus competidores en entrenar sus modelos. Las restricciones de exportación de EE. UU., que limitan el acceso de las empresas chinas a los mejores chips de computación para IA, obligaron a los desarrolladores de R1 a crear algoritmos más inteligentes y energéticamente eficientes para compensar la falta de potencia informática. Se informa que ChatGPT necesitó 10,000 GPUs de Nvidia para procesar sus datos de entrenamiento, mientras que los ingenieros de DeepSeek afirman haber logrado resultados similares con solo 2,000 GPUs.
Queda por ver cuánto de esto se traducirá en aplicaciones científicas y técnicas útiles, o si DeepSeek simplemente ha entrenado su modelo para sobresalir en pruebas de referencia, pero tanto los científicos como los inversores en IA están observando de cerca este desarrollo.
China, IA, DeepSeek