Tecnología

Investigadores desarrollan 'jailbreak' para ChatGPT y otros bots de IA

Published January 4, 2024

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur ha hecho un descubrimiento revolucionario en el ámbito de la inteligencia artificial. Han desarrollado un proceso conocido como 'Masterkey', que permite que los chatbots de inteligencia artificial se entrenen entre sí para eludir las restricciones impuestas en temas prohibidos o sensibles.

El Proceso de 'Jailbreak'

Esta técnica, a la que coloquialmente denominan 'jailbreak', implica a dos chatbots que aprenden mutuamente de sus modelos de lenguaje y encuentran formas de sortear los comandos que previenen la discusión de temas censurados. El grupo de investigadores, incluido el Profesor Liu Yang y los estudiantes de doctorado Deng Gelei y Liu Yi, idearon métodos de ataque de prueba de concepto que funcionan efectivamente como un hackeo por parte de actores malintencionados.

El Desarrollo del 'Masterkey'

El estudio comenzó con la ingeniería inversa de un modelo de lenguaje grande (LLM) para descubrir sus mecanismos de defensa, que típicamente bloquean respuestas a ciertas indicaciones o palabras por su posible contenido violento, inmoral o malicioso. Una vez obtenido este conocimiento, los investigadores pudieron enseñarle a otro LLM cómo crear un mecanismo de evasión basado en la información obtenida del primero, dando como resultado una comunicación más libre y sin restricciones en el segundo LLM.

La eficacia del proceso 'Masterkey' es significativa, siendo tres veces más efectivo en liberar restricciones en chatbots comparado con métodos convencionales. El equipo señala que este descubrimiento resalta la capacidad de adaptación y aprendizaje de los LLM y su posible uso indebido.

Implicaciones de Seguridad y Ética

Con la creciente popularidad de chatbots como ChatGPT, Google Bard y Microsoft Bing Chat, ha habido esfuerzos significativos por garantizar la seguridad y la adecuada regulación de estas plataformas. Los proveedores de servicios de chatbot han sido notificados sobre el potencial de 'jailbreak', lo que implica una preocupación real en la lucha contra el cibercrimen y el uso indebido de IA.

Los hallazgos del equipo de NTU se presentarán en el Simposio de Seguridad de Sistemas de Redes y Distribuidos en San Diego en febrero, poniendo en perspectiva global el desafío que enfrenta el campo en cuanto a la seguridad y la ética de la IA.

investigación, chatbot, seguridad