La nueva función de generación de imágenes de ChatGPT recibe una actualización
Durante una transmisión en vivo el martes, el CEO de OpenAI, Sam Altman, anunció la primera gran actualización a las capacidades de generación de imágenes de ChatGPT en más de un año.
ChatGPT ahora puede aprovechar el modelo GPT-4o de la compañía para crear y modificar imágenes y fotos de manera nativa. GPT-4o ha respaldado durante mucho tiempo la plataforma de chatbot impulsada por inteligencia artificial, pero hasta ahora, el modelo solo podía generar y editar texto, no imágenes.
Altman mencionó que la generación de imágenes nativa de GPT-4o está activa desde hoy en ChatGPT y Sora, el producto de generación de video de OpenAI, para los suscriptores del plan Pro de 200 dólares al mes de la empresa. OpenAI afirma que la función se implementará pronto para los usuarios de Plus y gratuitos de ChatGPT, así como para los desarrolladores que utilizan el servicio API de la compañía.
GPT-4o con salida de imagen "piensa" un poco más que el modelo de generación de imágenes que reemplaza, DALL-E 3, para crear imágenes que OpenAI describe como más precisas y detalladas. GPT-4o puede editar imágenes existentes, incluidas aquellas con personas, transformándolas o "inpainting" detalles como objetos en primer plano y de fondo.
OpenAI no reveló qué datos de imagen utilizó para habilitar las nuevas capacidades de generación de imágenes. Muchos proveedores de inteligencia artificial generativa ven los datos de entrenamiento como una ventaja competitiva y, por lo tanto, mantienen esa información en secreto. Sin embargo, los detalles sobre los datos de entrenamiento también son una fuente potencial de demandas relacionadas con la propiedad intelectual, lo que es otro desincentivo para que las empresas revelen mucho.
OpenAI ofrece un formulario de exclusión que permite a los creadores solicitar que sus obras sean eliminadas de sus conjuntos de datos de entrenamiento. La compañía también menciona que respeta las solicitudes para deshabilitar a sus bots de web scraping de la recolección de datos de entrenamiento, incluidas imágenes, de sitios web.
La capacidad de generación de imágenes mejorada de ChatGPT sigue la reciente implementación de salida de imágenes nativa por parte de Google para Gemini 2.0 Flash, uno de los modelos insignia de la compañía. Esta poderosa función se volvió viral en las redes sociales, pero no necesariamente por las mejores razones. El componente de imagen de Gemini 2.0 Flash demostró tener pocas restricciones, permitiendo a las personas eliminar marcas de agua y crear imágenes que representan personajes con derechos de autor.
ChatGPT, GPT-4o, imágenes