Tecnología

El poder creativo de ChatGPT a través de imágenes al estilo Studio Ghibli

Published April 1, 2025

Recientemente, las redes sociales han estado inundadas de imágenes que parecen sacadas de una película de Studio Ghibli. Selfies, fotos familiares e incluso memes se han reinterpretado con la suave paleta pastel que caracteriza a esta famosa compañía de animación japonesa, fundada por Hayao Miyazaki.

Esto se debe a la última actualización de ChatGPT de OpenAI, la cual mejoró significativamente su capacidad para generar imágenes, permitiendo a los usuarios crear imágenes convincentes al estilo Ghibli en cuestión de segundos. Esta función ha tenido una enorme popularidad, tanto que el sistema se llegó a caer debido a la alta demanda de usuarios.

Los sistemas de inteligencia artificial (IA) generativa, como ChatGPT, funcionan mejor al entenderse como "motores de estilo". Lo que estamos viendo ahora es que estos sistemas ofrecen a los usuarios más precisión y control que nunca.

Cómo genera imágenes el nuevo ChatGPT

Los programas de IA generativa producen resultados en respuesta a las indicaciones de los usuarios, incluyendo las que piden crear una imagen. Las generaciones anteriores de generadores de imágenes utilizaban modelos de difusión, que refinaban gradualmente datos aleatorios y ruidosos en una imagen coherente.

Sin embargo, la última actualización de ChatGPT utiliza un algoritmo autoregresivo que trata las imágenes más como un lenguaje, descomponiéndolas en “tokens”. Al igual que ChatGPT predice las palabras más probables en una oración, ahora puede predecir distintos elementos visuales de una imagen por separado.

La tokenización permite al algoritmo separar mejor ciertas características de una imagen y su relación con las palabras en una indicación. Como resultado, ChatGPT puede crear imágenes de manera más precisa a partir de indicaciones detalladas, lo que mejora el problema de generar texto correcto en las imágenes.

Una ventaja clave de generar imágenes dentro de un modelo de lenguaje grande es la capacidad de aprovechar todo el conocimiento ya codificado en el sistema. Esto significa que los usuarios no necesitan describir cada aspecto de una imagen en detalle; simplemente pueden referirse a conceptos como Studio Ghibli y la IA entiende la referencia.

La actual tendencia Ghibli comenzó con OpenAI mismo antes de extenderse entre ingenieros de software en Silicon Valley e incluso gobiernos y políticos. Ejemplos de esto incluyen la Casa Blanca creando una imagen al estilo Ghibli de una mujer llorando siendo deportada y el gobierno indio promoviendo la narrativa del primer ministro Narendra Modi sobre una “Nueva India”.

Entendiendo la IA como motores de estilo

Los sistemas de IA generativa no almacenan información de la manera tradicional. En su lugar, codifican texto, hechos o fragmentos de imágenes como patrones, o "estilos", dentro de sus redes neuronales. Al ser entrenados con grandes volúmenes de datos, los modelos de IA aprenden a reconocer patrones a múltiples niveles.

Las capas inferiores de la red pueden capturar características básicas, como las relaciones de las palabras o las texturas visuales, mientras que las capas superiores codifican conceptos más complejos o elementos visuales. Esto significa que todo —objetos, propiedades, géneros de escritura, voces profesionales— se transforma en estilos. Cuando la IA aprende sobre el trabajo de Miyazaki, no está almacenando cuadros reales de Studio Ghibli, sino que codifica la “Ghibli-idad” como un patrón matemático: un estilo que se puede aplicar a nuevas imágenes.

Esto también ocurre con elementos tan variados como plátanos, gatos o correos electrónicos corporativos. La IA aprende a identificar patrones que son reconocibles. Por eso, ahora tenemos un generador de imágenes que logra esto a escala y control sin precedentes.

Este enfoque desbloquea posibilidades creativas notables tanto en texto como en imágenes. Si todo es un estilo, esos estilos se pueden combinar y transferir libremente. Por eso, se les llama "motores de estilo". Puedes intentar crear un sillón al estilo de un gato o en un estilo élfico.

La controversia del copyright: cuando los estilos se vuelven identidad

Si bien la capacidad de trabajar con estilos es lo que hace a la IA generativa tan poderosa, también es el núcleo de una creciente controversia. Para muchos artistas, resulta inquietante ver que sus enfoques artísticos distintivos se reducen a solo otro "estilo" que cualquiera puede aplicar con un simple texto.

Hayao Miyazaki no ha comentado públicamente sobre la reciente tendencia de usar ChatGPT para generar imágenes al estilo de su animación mundialmente famosa. No obstante, ha criticado a la IA en el pasado.

Todo esto también plantea nuevas preguntas sobre el copyright y la propiedad creativa. Por definición, la ley de derechos de autor no protege estilos, solo expresiones específicas. No puedes tener derechos de autor sobre un género musical como el "ska" o un movimiento artístico como el "impresionismo".

Esta limitación existe por una buena razón: si alguien pudiera monopolizar un estilo completo, se ahogaría la expresión creativa de todos los demás.

No obstante, hay una diferencia entre estilos generales y aquellos altamente distintivos que se vuelven casi sinónimos con la identidad de alguien. Cuando una IA puede generar obras “al estilo de Greg Rutkowski”, un artista polaco cuyo nombre supuestamente fue utilizado en más de 93,000 indicaciones en el generador de imágenes AI Stable Diffusion, se amenaza su sustento y legado artístico.

Algunos creadores ya han tomado acciones legales. En un caso presentado a fines de 2022, tres artistas formaron una clase para demandar a múltiples empresas de IA, argumentando que sus generadores de imágenes fueron entrenados con sus obras originales sin permiso, y ahora permiten a los usuarios generar obras derivadas que imitan sus estilos distintivos.

A medida que la tecnología avanza más rápido que la ley, se están desarrollando nuevas legislaciones que intentan balancear la innovación tecnológica con la protección de las identidades creativas de los artistas. Independientemente de los resultados, estos debates resaltan la naturaleza transformadora de los motores de estilo de IA, así como la necesidad de considerar su potencial creativo no explotado y las protecciones más matizadas para los estilos artísticos distintivos.

inteligencia, creatividad, copyright, arte, ghibli