ChatGPT Obtiene una Actualización como Asistente Personal
El jueves, OpenAI presentó una nueva función llamada Operator, que permite a ChatGPT tomar control de un navegador virtual para realizar tareas del mundo real, como pedir comida o reservar vuelos. Sin embargo, actualmente está dirigida a un público de alto poder adquisitivo.
Esta herramienta, que solo está disponible para suscriptores Pro ($200 al mes) en los EE. UU., marca la primera incursión de la empresa en la navegación web autónoma.
Resalta la aparición de un sistema financiero escalonado, donde aquellos que están dispuestos a pagar más obtienen acceso a las mejores funciones de IA. Mientras tanto, los usuarios que pagan menos se ven limitados a modelos menos capacitados con funcionalidades restringidas, lo que plantea interrogantes sobre la equidad.
El sistema se puede utilizar a través de operator.chatgpt.com, donde los usuarios pueden solicitar a ChatGPT que se encargue de diversas tareas en línea.
Han existido intentos previos de realizar funciones similares, desde la tienda de complementos de OpenAI hasta la promesa de Modelos de Acción a Gran Escala popularizados por Rabbit. Sin embargo, su dependencia de APIs los hacía poco prácticos y difíciles de configurar.
Lo que diferencia a esta nueva función es su metodología. A diferencia de sus predecesores que dependían de APIs, Operator controla un navegador en la nube, haciendo clic en botones y completando formularios como lo haría una persona.
Cada vez que Operator realiza una acción, captura una captura de pantalla para mostrar lo que está haciendo.
Por ejemplo, si necesitas reservar un boleto para un evento, la IA abrirá su propio navegador, buscará el evento en un sitio específico y encontrará las mejores opciones antes de solicitarte la confirmación del pago.
Además, te guiará a través de su proceso de toma de decisiones con pruebas visuales. Si algo sale mal, hay un botón “Tomar Control” que permite a los humanos asumir el mando.
Para tener éxito donde otros fracasaron, OpenAI desarrolló su propio modelo de IA para entender visualmente la información mostrada por un navegador web y controlar acciones con entradas de teclado y mouse. Este nuevo modelo, impulsado por GPT-4o, se llama Agente Usuario de Computadora (CUA).
No se trata solo de seguir scripts. La IA puede leer y entender diseños de sitios web, adaptarse a diferentes interfaces y manejar incluso ventanas emergentes o mensajes de error inesperados.
El sistema muestra algunas impresionantes habilidades. Por ejemplo, si le das una foto de tu desordenada lista de compras escrita a mano, no solo utilizará GPT-Vision para leerla, sino que también ordenará todo desde tu tienda de abarrotes preferida.
OpenAI ha colaborado con varias empresas para asegurar operaciones suaves en sus plataformas. Cuando se trata de reservar un viaje o pedir comida, la IA puede navegar por servicios como Uber y DoorDash sin problemas, ya que está preconfigurada para entender sus interfaces.
Sin embargo, para los sitios web no compatibles, el sistema aún intenta completar las tareas utilizando sus capacidades de control del navegador. Aquí es donde Operator supera otras alternativas.
Como es habitual, OpenAI compartió algunos resultados comparativos: supera a otros modelos de vanguardia, obteniendo un 38.1% en OSWorld (proficiencia en el manejo de sistemas operativos estándar) frente al 22% de su mejor competidor y un 58.1% en WebArena (manejo de sitios de comercio electrónico) frente al 36.2% de los competidores.
Aun así, el equipo enfatizó que Operator sigue siendo una vista previa de investigación, por lo que se esperan errores y fallos.
Un posible punto de preocupación para los usuarios preocupados por la seguridad es que deberás confiar en Operator con tus credenciales de inicio de sesión. El navegador en la nube necesita acceso a tus cuentas para hacer lo que se le pida, y como no es compatible con navegadores locales, iniciar sesión con un navegador remoto y confiar en la promesa de OpenAI de no almacenar datos sensibles podría parecer una señal de advertencia.
La función se implementará de manera más amplia pronto, con los suscriptores Plus como los próximos en línea. Los desarrolladores tampoco se quedarán fuera, ya que OpenAI planea lanzar Operator a través de su API en las próximas semanas, lo que podría dar lugar a una nueva generación de herramientas de automatización impulsadas por IA.
OpenAI también ha indicado que hay más instancias en camino, y que están trabajando para expandir el número de agentes de IA más allá del actual asistente de propósito general.
Artículo editado por un equipo de expertos en tecnología.
ChatGPT, Asistente, Tecnología, IA, Automatización