Tecnología

Ant Group reduce costos de entrenamiento de modelos de IA al usar GPUs locales

Published March 25, 2025

Ant Group, el afiliado de servicios financieros de Alibaba Group Holding, ha encontrado una manera innovadora de entrenar grandes modelos de lenguaje (LLMs) utilizando unidades de procesamiento gráfico (GPUs) producidas localmente. Esta estrategia no solo disminuye su dependencia de los chips avanzados de Nvidia, sino que también reduce los costos de entrenamiento en un 20 por ciento, según un artículo de investigación y varios informes de medios.

El equipo Ling de Ant, encargado del desarrollo de los LLM, ha revelado que su modelo Ling-Plus-Base, que utiliza la técnica de Mixture-of-Experts (MoE) y cuenta con 300 mil millones de parámetros, puede ser “efectivamente entrenado en dispositivos de menor rendimiento”. Este hallazgo fue compartido en un artículo reciente en arXiv, una plataforma de acceso abierto para profesionales de la comunidad científica.

Al evitar el uso de GPUs de alto rendimiento, el modelo logra reducir los costos de computación en un quinto durante el proceso de preentrenamiento, manteniendo al mismo tiempo un rendimiento comparable al de otros modelos como Qwen2.5-72B-Instruct y DeepSeek-V2.5-1210-Chat, según indica el artículo. Este avance coloca a la empresa con sede en Hangzhou en una posición competitiva junto a pares nacionales como DeepSeek y ByteDance, quienes también buscan disminuir su dependencia de los costosos chips de Nvidia, que están sujetos a estrictos controles de exportación por parte de Estados Unidos.

“Estos resultados demuestran la viabilidad de entrenar modelos MoE de gran escala y de última generación en hardware menos potente, lo que permite un enfoque más flexible y rentable para el desarrollo de modelos fundamentales en relación a la selección de recursos computacionales”, escribió el equipo en su paper.

La técnica MoE es un método de aprendizaje automático en el que múltiples redes de conocimiento especializado se utilizan para dividir un espacio de problemas en secciones homogéneas. Esta técnica ha sido adoptada ampliamente por modelos de inteligencia artificial (IA) líderes, como Grok, DeepSeek y el Qwen de Alibaba, para escalar LLMs a más de un billón de parámetros, manteniendo los costos de computación constantes. Cabe recordar que Alibaba es propietario del South China Morning Post.

AntGroup, AI, GPUs