Tecnología

Investigadores Desarrollan Herramienta de Vigilancia IA para Modelos de Lenguaje

Published November 21, 2023

Un equipo de especialistas en inteligencia artificial de la empresa AutoGPT, junto con expertos de la Universidad Northeastern y Microsoft Research, han creado un instrumento novedoso que tiene la función de supervisar y controlar los modelos de lenguaje de gran escala (LLMs por sus siglas en inglés). El propósito primordial de esta herramienta es identificar y prevenir la generación de contenidos potencialmente dañinos a través de los LLMs.

Información Detallada en un Documento de Investigación

Los detalles técnicos y funcionales de este agente de supervisión se describen en un documento de investigación llamado “Testing Language Model Agents Safely in the Wild”. Se espera que el agente tenga la capacidad de monitorear con eficacia los LLMs existentes y detenga la producción de salidas perjudiciales, incluidos ataques de código, antes de que se concreten.

El sistema de auditoría del agente es sensible al contexto y establece un límite de seguridad estricto. Si detecta una prueba insegura, puede detenerla de manera preventiva. Las conductas sospechosas son clasificadas y registradas para su posterior análisis humano.

Para adiestrar al agente de monitoreo, se ha generado un conjunto de datos con aproximadamente 2,000 interacciones seguras entre humanos e IA. Estas interacciones abarcan una variedad de 29 tareas distintas que van desde la simple recuperación de texto hasta la corrección de códigos y la creación de sitios web desde cero.

Entrenamiento y Capacidades del Agente

La formación del agente involucra interacciones seguras y variadas para asegurar su efectividad en múltiples situaciones. La diversidad de las tareas con las que ha sido entrenado muestra la amplitud de aplicaciones que se esperan manejar, subrayando la importancia de la seguridad en el uso de la inteligencia artificial avanzada.

inteligencia, supervisión, seguridad