BEAST AI: Un avance en la generación de respuestas perjudiciales en modelos de lenguaje en solo un minuto
Un grupo de científicos informáticos de la Universidad de Maryland en Estados Unidos ha desarrollado una técnica llamada BEAST, que significa BEAm Search-based adversarial aTtack, para generar respuestas dañinas de modelos de lenguaje amplios (LLMs) con alta eficacia y rapidez.
¿Qué es BEAST?
BEAST es un método que permite crear rápidamente indicaciones o 'prompts' que provocan respuestas nocivas en los LLMs. Estos modelos de lenguaje, que normalmente atraviesan procesos de alineación para evitar resultados inapropiados, pueden ser manipulados con solo un minuto de tiempo de procesamiento en una GPU, en particular usando una Nvidia RTX A6000 con 48GB de memoria.
Adversarios rápidos y efectivos
Esta técnica se destaca por su velocidad, siendo capaz de lograr ataques exitosos en aproximadamente 89% de los casos estudiados, mientras que otros métodos basados en gradientes pueden tardar más de una hora y lograr tasas de éxito menores. Los investigadores prueban su algoritmo con la base de datos de comportamientos perjudiciales AdvBench, buscando los términos necesarios para conseguir una respuesta problemática por parte del modelo de lenguaje.
Implicaciones y alcance
Lo notable de BEAST es que no requiere acceso completo al modelo de lenguaje; basta con acceder a las puntuaciones de probabilidad de los tokens del modelo. Esto significa que incluso modelos comerciales como GPT-4 de OpenAI podrían ser atacados si se dispone de esta información.
La generación de prompts adversarios tiene aplicaciones potenciales en ingeniería social, pudiendo ser usada para engañar a personas mediante la inserción de textos aparentemente coherentes. Además, BEAST puede causar 'alucinaciones', respuestas inexactas de los modelos, o realizar ataques de inferencia de membresía que revelen si cierta información fue parte del conjunto de datos de entrenamiento del modelo, planteando preocupaciones de privacidad.
A pesar del éxito de BEAST, la investigación demuestra que es posible mitigar sus efectos a través de un entrenamiento de seguridad exhaustivo, tal y como lo demuestra el menor índice de éxito del ataque sobre modelos como LLaMA-2 de Meta, que han pasado por un proceso de alineamiento más riguroso.
BEAST, AI, LLM