Tecnología

ChatGPT Ahora Puede Ver e Interactuar Contigo en Tiempo Real

Published December 13, 2024

OpenAI ha presentado las esperadas capacidades de video de ChatGPT, permitiendo a los usuarios enfocar sus teléfonos en objetos para un análisis de IA en tiempo real. Esta característica, que había estado en espera desde su primera demostración en mayo, finalmente está disponible.

Anteriormente, los usuarios podían ingresar texto, gráficos, voz o fotos estáticas para interactuar con GPT. Con la nueva función, lanzada el jueves, ChatGPT puede observar en tiempo real y ofrecer retroalimentación conversacional. En mis pruebas, este modo pudo resolver problemas matemáticos, proporcionar recetas de comida, contar historias y, sorprendentemente, convertirse en el nuevo mejor amigo de mi hija interactuando con ella mientras hacían panqueques, sugiriéndole ideas y fomentando su aprendizaje a través de diferentes juegos.

Este lanzamiento llega un día después de que Google mostrara su propio asistente de IA habilitado para cámara, impulsado por el recién presentado Gemini 2.0. Meta también está en esta carrera, con su propio asistente de IA que puede ver y charlar a través de las cámaras de los teléfonos.

Sin embargo, las nuevas funciones de ChatGPT no están disponibles para todos. Solo los suscriptores de Plus, Team y Pro pueden acceder a lo que OpenAI llama “Modo de voz avanzada con visión.” La suscripción Plus tiene un costo de $20 al mes, y la Pro $200.

“Estamos emocionados de anunciar que estamos llevando el video al modo de voz avanzada para que puedas incorporar video en vivo y también compartir pantalla en tus conversaciones con ChatGPT”, dijo Kevin Weil, director de productos de OpenAI, en un video el jueves.

La transmisión fue parte de la campaña “12 Días de OpenAI” que presenta 12 anuncios en 12 días consecutivos. Hasta ahora, OpenAI ha lanzado su modelo o1 para todos los usuarios, ha presentado el plan ChatGPT Pro por $200 al mes, introducido ajustes de refuerzo para modelos personalizados, lanzado su aplicación de video generativa Sora, actualizado su función de lienzo y lanzado ChatGPT en dispositivos Apple a través de la función de inteligencia de esta compañía.

La empresa mostró un vistazo de lo que puede hacer durante la transmisión en vivo del jueves. La idea es que los usuarios puedan activar el modo de video en la misma interfaz que el modo de voz avanzada y comenzar a interactuar con el chatbot en tiempo real. El chatbot tiene una gran comprensión visual y es capaz de proporcionar retroalimentación relevante con baja latencia, lo que hace que la conversación se sienta natural.

El camino hacia aquí no fue exactamente fácil. OpenAI prometió inicialmente estas funciones “dentro de unas pocas semanas” a finales de abril, pero la característica fue retrasada tras la controversia sobre la imitación de la voz de la actriz Scarlett Johansson sin su permiso, en el modo de voz avanzada. Dado que el modo de video depende del modo de voz avanzada, eso aparentemente retrasó el lanzamiento.

Por su parte, Google no se ha quedado quieto. Project Astra acaba de llegar a las manos de "probadores de confianza" en Android esta semana, prometiendo una función similar: una IA que habla múltiples idiomas, integra la búsqueda y mapas de Google, y recuerda conversaciones por hasta 10 minutos.

No obstante, esta función aún no está ampliamente disponible, ya que se espera un lanzamiento más amplio para principios del próximo año. Google también tiene planes más ambiciosos para sus modelos de IA, dándoles la capacidad de ejecutar tareas en tiempo real y mostrar un comportamiento ágil más allá de las interacciones audiovisuales.

Meta también está buscando un lugar en la próxima era de interacciones IA. Su asistente, Meta AI, fue presentado en septiembre de este año. Ofrece capacidades similares a las de los nuevos asistentes de OpenAI y Google, proporcionando respuestas de baja latencia y comprensión de video en tiempo real.

Sin embargo, Meta está apostando por usar la realidad aumentada para impulsar su oferta de IA, con gafas inteligentes “discretas” capaces de potenciar esas interacciones, utilizando una pequeña cámara integrada en sus marcos. Meta lo llama Project Orion.

Los usuarios de ChatGPT Plus actuales pueden probar las nuevas funciones de video tocando el ícono de voz junto a la barra de chat y luego presionando el botón de video. Compartir pantalla requiere un toque adicional a través del menú de tres puntos (también conocido como el menú “hamburguesa”).

Para los usuarios de ChatGPT en Enterprise y Edu interesados en probar las nuevas funciones de video, enero es el mes mágico. Sin embargo, los suscriptores de la UE tendrán que observar desde la barrera por ahora.

OpenAI, ChatGPT, video