¿Por qué DeepSeek es un revolucionario en la inteligencia artificial?
Hace menos de dos semanas, una compañía china poco conocida lanzó su último modelo de inteligencia artificial (IA) y provocó un gran impacto en todo el mundo.
DeepSeek afirmó en un documento técnico publicado en GitHub que su modelo R1 de pesos abiertos logró resultados comparables o mejores que los modelos de IA creados por algunas de las principales empresas de Silicon Valley, como ChatGPT de OpenAI, Llama de Meta y Claude de Anthropic. Y lo más sorprendente es que el modelo logró estos resultados mientras fue entrenado y ejecutado a una fracción del costo de sus competidores.
La reacción del mercado tras el anuncio fue contundente: DeepSeek se coronó como la aplicación gratuita más descargada en la App Store de Apple, y se perdieron $1 billón en valoraciones de las principales empresas tecnológicas estadounidenses.
Nvidia, una compañía que produce chips gráficos de alta gama H100, considerados esenciales para el entrenamiento de IA, sufrió una pérdida de $589 mil millones, la mayor pérdida de valoración en un día en la historia de EE.UU. DeepSeek, sin embargo, afirmó haber entrenado su modelo de IA sin estos chips, aunque utilizó chips Nvidia menos potentes. La reacción de las empresas tecnológicas estadounidenses fue de pánico, incluso con representantes de OpenAI sugiriendo que DeepSeek había plagiado partes de sus modelos.
¿Qué hace que los modelos de DeepSeek sean disruptivos?
Expertos en IA señalan que la llegada de DeepSeek ha desafiado una creencia clave en la industria: que cuanto más grande es el modelo, mejor rendimiento se obtiene. "El hecho de que DeepSeek se haya construido con menos dinero, menos computación y menos tiempo, y que puede ejecutarse localmente en máquinas menos costosas, indica que, mientras todos corrían tras lo más grande, pasamos por alto la oportunidad de construir algo más inteligente y pequeño", comentó Kristian Hammond, profesor de informática en la Universidad Northwestern.
Pero, ¿qué hace que los modelos V3 y R1 de DeepSeek sean tan innovadores? La clave, según los científicos, es la eficiencia.
Ambuj Tewari, profesor de estadística e informática en la Universidad de Michigan, explicó que, en algunos aspectos, los avances de DeepSeek son más evolutivos que revolucionarios. "Aún operan bajo el paradigma dominante de modelos muy grandes (cientos de miles de millones de parámetros) sobre conjuntos de datos igualmente grandes (billones de tokens) con presupuestos igualmente grandes. Si tomamos las afirmaciones de DeepSeek como verdaderas, su principal innovación radica en la forma en que utiliza sus modelos grandes y poderosos para funcionar igual de bien que otros sistemas, pero con menos recursos".
El aspecto clave de esto es un sistema de mezcla de expertos que divide los modelos de DeepSeek en submodelos, cada uno especializado en una tarea o tipo de datos específico. Esto se complementa con un sistema de carga que, en lugar de aplicar una penalización general a un sistema sobrecargado, traslada dinámicamente tareas de submodelos sobrecargados a aquellos que están menos ocupados.
"Esto significa que, aunque el modelo V3 tiene 671 mil millones de parámetros, sólo se activan 37 mil millones para cualquier token dado", explica Tewari. Un token se refiere a una unidad de procesamiento en un modelo de lenguaje grande (LLM), equivalente a un fragmento de texto.
Además, la carga se equilibra mediante una técnica llamada escala de cómputo en tiempo de inferencia, que ajusta la cantidad de computación asignada para adaptarse a la complejidad de la tarea encomendada.
Esta eficiencia también se extiende al entrenamiento de los modelos de DeepSeek. Expertos señalan que la necesidad de utilizar chips menos potentes les llevó a un avance significativo: su marco de precisión mixta. En lugar de representar todos los pesos de su modelo (los números que establecen la fuerza de la conexión entre las neuronas artificiales) usando números de punto flotante de 32 bits (FP32), entrenaron partes de su modelo con números de menor precisión de 8 bits (FP8), cambiando solo a 32 bits para cálculos más difíciles donde la precisión es crucial.
"Esto permite un entrenamiento más rápido con menos recursos computacionales", indicó Thomas Cao, profesor de políticas tecnológicas en la Universidad de Tufts. "DeepSeek también ha refinado casi cada paso de su proceso de entrenamiento -carga de datos, estrategias de paralelización y optimización de memoria- para lograr una alta eficiencia en la práctica".
Adicionalmente, mientras es común entrenar modelos de IA utilizando etiquetas proporcionadas por humanos para evaluar la precisión de las respuestas y razonamientos, el razonamiento de R1 es no supervisado. Solo utiliza la corrección de las respuestas finales en tareas como matemáticas y codificación como señal de recompensa, lo que libera recursos de entrenamiento para ser usados en otros lugares.
Esto da como resultado un par de modelos notablemente eficientes. Mientras que los costos de entrenamiento de sus competidores pueden ascender a decenas o cientos de millones de dólares y a menudo toman varios meses, representantes de DeepSeek afirman que la compañía entrenó su modelo V3 en solo dos meses por solo $5.58 millones. Los costos operativos de DeepSeek V3 son igualmente bajos, siendo 21 veces más baratos de ejecutar que Claude 3.5 de Anthropic.
Cao es precavido al señalar que la investigación y desarrollo de DeepSeek, que incluye su hardware y una gran cantidad de experimentos de prueba y error, probablemente costó mucho más que esta cifra de $5.58 millones. Sin embargo, sigue siendo una reducción de costos lo suficientemente significativa como para haber sorprendido a sus competidores.
En general, los expertos en IA coinciden en que la popularidad de DeepSeek probablemente represente un beneficio neto para la industria, al reducir los costos de recursos exorbitantes y bajar las barreras de entrada para investigadores y empresas. También podría abrir espacio para que más fabricantes de chips, además de Nvidia, entren en la contienda. Sin embargo, esto también presenta sus propios peligros.
"A medida que los métodos más baratos y eficientes para desarrollar modelos de IA avanzados se hagan disponibles públicamente, permitirá a más investigadores alrededor del mundo perseguir el desarrollo de LLM de vanguardia, potencialmente acelerando el progreso científico y la creación de aplicaciones", dijo Cao. "Al mismo tiempo, esta menor barrera de entrada plantea nuevos desafíos regulatorios, más allá de la rivalidad EE.UU.-China, sobre el uso indebido o los efectos potencialmente desestabilizadores de la IA avanzada por parte de actores estatales y no estatales".
DeepSeek, IA, eficiencia