Tecnología

Apple innova en la IA de código abierto con el editor de imágenes MGIE

Published February 8, 2024

Apple, en colaboración con la Universidad de Santa Bárbara, ha creado un revolucionario modelo de inteligencia artificial (IA) que promete transformar la edición de imágenes. Este nuevo modelo permite a los usuarios interactuar y editar imágenes utilizando instrucciones en lenguaje natural, similar a como se conversa con ChatGPT, y ha sido denominado como Modelo de Edición de Imágenes Guiado por un Modelo de Lenguaje Natural Multimodal (MGIE por sus siglas en inglés).

¿Qué es MGIE y cómo funciona?

MGIE es una tecnología que interpreta textos suministrados por usuarios y los convierte en comandos de edición de imágenes precisos. Al integrar un modelo de difusión, MGIE logra aplicar ediciones que respetan las características originales de la imagen. Este método se basa en Modelos de Lenguaje Natural Multimodal (MLLMs), que procesan tanto texto como imágenes, y son capaces de realizar tareas más complejas en comparación con IA tradicionales.

Por ejemplo, con MGIE, alguien podría cambiar el color de cabello de una persona en una foto simplemente dando la instrucción: 'haz que esta persona sea pelirroja'. El modelo entendería la orden, segmentaría el cabello de la persona, generaría un comando como 'cabello rojo, detallado, fotorrealista, tono pelirrojo' y ejecutaría la edición.

¿Qué hace a MGIE superior a otros métodos?

La aproximación de Apple a la edición de imágenes guiada por texto parece ser más precisa que métodos establecidos como Pix2Pix. MGIE no solo es capaz de entender instrucciones detalladas, sino que también puede realizar tareas de edición tradicionales como gradación de color, redimensionado, rotaciones, cambios de estilo y bocetado.

¿Por qué Apple decide liberar MGIE como código abierto?

La estrategia de Apple al hacer MGIE de código abierto va más allá del simple cumplimiento de licencias. Al abrir su tecnología a la comunidad global de desarrolladores, Apple se beneficia de la innovación y la velocidad de desarrollo colectivos, lo que le permite avanzar más rápido y atraer talento diverso.

Este movimiento también posiciona a Apple mejor entre los desarrolladores y aficionados a la tecnología, lo que puede ser crucial para influir en los estándares de la industria de IA, en especial en edición de imágenes basada en IA. Además, al presentar MGIE como software de código abierto, Apple potencialmente puede establecer la fundación sobre la cual los artistas y desarrolladores de IA construirán nuevas y grandes innovaciones.

El modelo MGIE ya está disponible para los desarrolladores con conocimientos técnicos en el repositorio de GitHub del proyecto, prometiendo llevar la edición de imágenes a un nuevo nivel de precisión y eficiencia.

Apple, IA, MGIE