Tecnología

Alibaba hace público su modelo de generación de video Wanxiang 2.1

Published February 27, 2025

En la noche del 25 de febrero, Alibaba Group Holding Limited hizo pública su modelo de generación de video Wanxiang 2.1. Este modelo es un componente clave de la serie de modelos de inteligencia artificial Tongyi de Alibaba Cloud, lanzada en enero de 2025. En el conjunto de evaluación autorizado VBench, superó significativamente a otros modelos tanto nacionales como extranjeros, como Sora, Luma y Pika, con una puntuación total de 86.22%, ocupando firmemente la primera posición.

Wanxiang 2.1 utiliza una arquitectura de autoencoder variacional (VAE) eficiente y un transformador de imágenes dinámico (DiT) desarrollado por Alibaba para mejorar sus capacidades de modelado de contexto espacio-temporal. Este diseño permite que el modelo capture y simule con mayor precisión los cambios dinámicos en el mundo real, mientras reduce los costos de entrenamiento a través de mecanismos de compartición de parámetros.

El modelo divide los videos en múltiples bloques y almacena características intermedias, lo que evita la complejidad de los procesos tradicionales de codificación/decodificación de extremo a extremo, y soporta la generación y el procesamiento eficientes de videos de longitud ilimitada en 1080P.

Wanxiang 2.1 es también el primer modelo de generación de video que admite la generación de texto en chino, así como efectos especiales tanto para textos en chino como en inglés. En términos de cumplimiento de instrucciones, puede generar videos estrictamente según indicaciones como movimientos de cámara, así como entender y ejecutar instrucciones largas con precisión.

Además, este modelo puede simular con exactitud las leyes físicas del mundo real, como gotas de lluvia que salpican paraguas o transiciones naturales durante el movimiento humano. Al lidiar con movimientos complejos como el patinaje artístico o la natación, Wanxiang 2.1 mantiene la coordinación entre las partes del cuerpo y la autenticidad en las trayectorias de movimiento.

Alibaba ha liberado todo el código de inferencia y los pesos de Wanxiang 2.1 con dos especificaciones de parámetros, 14B y 1.3B, bajo la licencia Apache 2.0. Los desarrolladores de todo el mundo pueden descargarlos y experimentarlos en plataformas como Github, HuggingFace y MoDa Community.

Se entiende que el modelo 14B sobresale en el cumplimiento de instrucciones y en la generación de escenas complejas, mientras que la versión 1.3B puede ejecutarse en tarjetas gráficas de nivel de consumo con solo 8.2GB de memoria para generar videos de alta calidad. Esto lo hace adecuado para el desarrollo de modelos secundarios y la investigación académica, reduciendo así las barreras de entrada.

De hecho, ha habido precedentes de modelos de generación de video de código abierto en la industria antes de este lanzamiento por parte de Alibaba; anteriormente, StepStar había liberado Step-Video-T2V, que tenía el tamaño de parámetro más grande a nivel mundial con el mejor rendimiento entre los modelos de generación de video de código abierto.

Para la industria de la inteligencia artificial, el código abierto proporciona poderosas herramientas para los desarrolladores, acelerando la innovación tecnológica y la expansión de aplicaciones en el campo de la generación de video. Actualmente, la estrella de IA nacional DeepSeek continúa orientada al código abierto; Baidu también ha anunciado que abrirá completamente el modelo de gran escala ERNIE 4.5 a partir del 30 de junio.

VER TAMBIÉN: Baidu: La serie ERNIE 4.5 estará disponible como código abierto a partir del 30 de junio

¡Regístrate hoy! para obtener 5 artículos gratuitos al mes!

Alibaba, Wanxiang, IA