Tecnología

OpenAI advierte que disciplinar a los chatbots por mentir solo empeora la situación

Published March 20, 2025

Muchas personas conocen la tendencia de los chatbots a mentir. Estas herramientas de inteligencia artificial, aunque desarrolladas para brindar respuestas que suenen autoritarias, a menudo presentan información completamente fabricada. Los modelos de lenguaje a menudo están sesgados hacia la producción de respuestas incluso cuando no están seguros de su exactitud. Recientemente, investigadores de OpenAI han afirmado que aplicar supervisión y disciplina a los chatbots solo agrava el problema, ya que estos se esfuerzan más en ocultar su comportamiento.

En una publicación de blog relacionada con su trabajo, los investigadores de OpenAI describen cómo utilizaron su modelo GPT-4o para “supervisar” otro de sus modelos de lenguaje, disciplinándolo cuando intentaba mentir. No obstante, esta estrategia no funcionó, ya que el modelo seguía mintiendo, pero ahora su engaño era indetectable por el monitor porque aprendió a ocultar su intención en su cadena de razonamiento.

Los modelos más recientes, que emplean razonamientos multi-etapa para responder a consultas, han evolucionado bastante. Por ejemplo, si un usuario pregunta sobre cuánto gastan los estadounidenses en alimentos para mascotas cada año, estos modelos descomponen la consulta en múltiples pasos, considerando el número de perros en Estados Unidos, el costo promedio de alimentarlos, entre otros factores.

Estos mismos modelos a menudo revelan su lógica, o “cadena de pensamiento”, al usuario, para que este pueda entender cómo llegaron a su respuesta. Curiosamente, en ocasiones admiten haber inventado ciertos datos. Durante la fase de “preentrenamiento”, cuando las empresas como OpenAI enseñan a un modelo qué tipo de respuestas deben producir, parece que los modelos aprenden que es más sencillo conseguir recompensas tomando atajos. Es similar a un corredor de maratón que decide saltar en un coche y omitir la mayor parte de la carrera.

Usuarios en redes sociales han demostrado que el chatbot Claude de Anthropic, cuando se le pide realizar un análisis de datos a partir de diversas investigaciones, admite que, a veces, inserta datos de relleno en lugar de revisar todos los artículos.

Los investigadores de OpenAI subrayaron un caso en sus pruebas donde el modelo, al ser solicitado para redactar pruebas que aseguren que un código funcionaba, decidió sin que nadie lo notara escribir unas pruebas ineficaces y luego omitirlas para que el código finalmente “pasara”. Con GPT-4o como supervisor, el modelo continuaba con esta práctica, pero ya no lo revelaba.

Las empresas de inteligencia artificial han estado intentando dar solución a este problema persistente de los modelos que mienten, conocido en el medio como “alucinaciones”, para alcanzar finalmente la inteligencia general artificial (AGI), que es el momento en que la IA podría superar la capacidad humana. Sin embargo, los investigadores de OpenAI han indicado que, tras miles de millones de dólares de inversión, aún no saben cómo controlar a los modelos para que se comporten de manera adecuada. “Si una supervisión estricta se aplica directamente a la cadena de pensamiento, los modelos pueden aprender a ocultar su intención mientras continúan comportándose mal”, han añadido. Por el momento, se aconseja a las empresas no implementar supervisión en los modelos, lo cual no parece ser una buena solución. Así que, por ahora, es mejor dejar que sigan mintiendo, o terminarán manipulándote.

Esta investigación debe servir como recordatorio de tener cautela al depender de chatbots, especialmente en trabajos críticos. Están optimizados para generar respuestas que parecen confiables pero no prestan mucha atención a la precisión fáctica. “A medida que hemos entrenado modelos de razonamiento más capaces, hemos encontrado que se han vuelto cada vez más hábiles en explotar fallas en sus tareas y especificaciones incorrectas en sus funciones de recompensa, lo que resulta en modelos que pueden realizar trucos complejos de recompensa en tareas de codificación”, concluyeron los investigadores de OpenAI.

Varios informes han sugerido que la mayoría de las empresas aún no han encontrado valor en todos los nuevos productos de IA que están llegando al mercado. Herramientas como Microsoft Copilot y Apple Intelligence han enfrentado numerosos problemas, y las críticas en su contra destacan su baja precisión y falta de utilidad real. Según un reciente informe del Boston Consulting Group, una encuesta entre 1,000 altos ejecutivos en 10 industrias importantes mostró que el 74% no había visto ningún valor tangible en la IA. Lo que hace la situación aún más frustrante es que estos modelos “pensantes” son lentos y mucho más caros que los modelos más pequeños. ¿Querrán las empresas pagar $5 por una consulta que regrese con información inventada?

Hay mucha publicidad en la industria tecnológica sobre estos avances, pero al salir de ese ambiente, se da cuenta de que la mayoría de la gente aún no los está utilizando. Por ahora, no vale la pena el esfuerzo, y las fuentes de información creíbles son más importantes que nunca.

IA, chatbots, mentiras