El nuevo modelo de video generativo de Google, Veo, ya está disponible
Veo, el último modelo de video generativo de Google, ya está disponible para que las empresas comiencen a incorporarlo en sus procesos de creación de contenido. Anunciado por primera vez en mayo —tres meses después de que OpenAI presentara su producto Sora—, Veo ha logrado llegar al mercado antes al lanzarse en una vista previa privada a través de la plataforma Vertex AI de Google.
Veo es capaz de generar videos en resolución de 1080p de “alta calidad” en una variedad de estilos visuales y cinematográficos a partir de indicaciones basadas en texto o imágenes. Cuando se anunció el modelo, se mencionó que estos clips generados podrían durar vagamente “más de un minuto”, pero Google no especifica restricciones de duración para esta versión de vista previa. Algunos nuevos ejemplos de clips en el anuncio de Google están a la par con lo que ya hemos visto de Veo; sin un ojo atento, es extremadamente difícil distinguir que los videos son generados por inteligencia artificial.
El ejemplo de un perro en estos clips de Veo es especialmente impresionante; se puede notar cómo su patrón de pelaje y su collar permanecen consistentes a través de su movimiento.
Gif: Google
La última versión del generador de texto a imagen de Google, Imagen 3, también estará disponible para todos los clientes de Google Cloud a través de Vertex “a partir de la próxima semana”, ampliando su lanzamiento inicial en EE. UU. en la AI Test Kitchen de Google a finales de agosto. Los usuarios que estén en la lista permitida por Google también podrán acceder a nuevas funciones, como la edición de fotos basada en indicaciones y la capacidad de “incorporar tu propia marca, estilo, logotipo, sujeto o características del producto” en las imágenes generadas.
Sin embargo, Veo no es perfecto; por ejemplo, se puede observar cómo la luz brilla a través de la mano de alguien en la esquina superior izquierda de un video de concierto generado por IA.
Imagen: Google
Google asegura que Veo e Imagen 3 cuentan con salvaguardias integradas para evitar la generación de contenido perjudicial o la violación de derechos de autor —aunque hemos encontrado que esta última no era difícil de eludir. Todo lo producido por Veo e Imagen 3 también está incrustado con la tecnología SynthID de DeepMind —una especie de marca de agua digital invisible que Google afirma puede “disminuir las preocupaciones sobre la desinformación y la atribución errónea.” Es un concepto similar al sistema de Contenido Credenciales de Adobe, que se puede incrustar en el contenido producido por los modelos de IA generativa de imágenes y videos de la propia empresa creativa.
Con el modelo de video de Google ahora disponible, OpenAI se encuentra notablemente detrás de sus competidores y se queda sin tiempo para cumplir su promesa de lanzar Sora antes de finales de 2024. Ya estamos viendo contenido generado por IA apareciendo en anuncios, como la reciente campaña navideña de Coca-Cola, y las empresas tienen un incentivo para no esperar a Sora; según Google, el 86 por ciento de las organizaciones que ya utilizan IA generativa están viendo un aumento en sus ingresos.
Google, IA, video