Tecnología

La última actualización de Anthropic permite que la IA controle una computadora de forma autónoma

Published October 22, 2024

La última actualización del modelo de IA Claude 3.5 Sonnet de Anthropic incluye una nueva función en beta pública que permite controlar una computadora. Esta capacidad, llamada "uso de computadora", permite a la IA observar una pantalla, mover un cursor, hacer clic en botones y escribir texto. Esta función ya está disponible en la API, lo que permite a los desarrolladores instruir a Claude para que opere en una computadora como lo haría un ser humano, tal como se muestra en un video que presenta su uso en una Mac.

Otras empresas también han introducido características similares. Por ejemplo, el asistente Copilot Vision de Microsoft y la aplicación de escritorio de ChatGPT de OpenAI han demostrado lo que sus herramientas de IA pueden hacer al ver la pantalla de una computadora. Además, Google también tiene capacidades similares en su aplicación Gemini para teléfonos Android. Sin embargo, hasta ahora no han lanzado herramientas ampliamente accesibles que permitan a la IA hacer clic y llevar a cabo tareas de manera autónoma como lo hace Claude. La compañía Rabbit había prometido capacidades análogas para su R1, pero aún no ha cumplido.

Aun así, Anthropic advierte que el uso de computadora sigue siendo experimental y puede ser "torpe y propenso a errores". La empresa señala: "Estamos lanzando el uso de computadora de manera temprana para recibir retroalimentación de los desarrolladores y esperamos que esta capacidad mejore rápidamente con el tiempo."

Los desarrolladores indican que hay muchas acciones comunes que las personas realizan en las computadoras (como arrastrar, acercar, etc.) que Claude aún no puede intentar llevar a cabo. Además, la forma en que Claude ve la pantalla, que se asemeja a un "flipbook" al tomar capturas de pantalla y unirlas, significa que puede perder acciones o notificaciones de corta duración.

Además, esta versión de Claude ha sido configurada para evitar el uso de redes sociales. La empresa ha implementado medidas para monitorear cuándo se solicita a Claude participar en actividades relacionadas con elecciones, así como sistemas para desviar a Claude de tareas como generar y publicar contenido en redes sociales, registrar dominios web o interactuar con sitios web gubernamentales.

Por otro lado, Anthropic afirma que su nuevo modelo Claude 3.5 Sonnet presenta mejoras en muchos benchmarks y se ofrece a sus clientes al mismo precio y velocidad que su predecesor. Este nuevo modelo de Claude muestra mejoras significativas en diferentes benchmarks de la industria, siendo especialmente destacables sus avances en tareas de codificación y uso de herramientas. En términos de programación, ha mejorado su desempeño en SWE-bench Verified del 33.4% al 49.0%, superando a todos los modelos disponibles públicamente, incluidos modelos de razonamiento como el de OpenAI o1-preview y sistemas especializados diseñados para programación agentiva. También ha incrementado su rendimiento en TAU-bench, una tarea de uso de herramientas agentivas, del 62.6% al 69.2% en el ámbito minorista, y del 36.0% al 46.0% en el más desafiante dominio de las aerolíneas.

tecnología, inteligencia, innovación