Investigadores dicen que la herramienta de transcripción impulsada por IA utilizada en hospitales inventa cosas que nadie dijo
San Francisco: La poderosa compañía tecnológica OpenAI ha promovido su herramienta de transcripción impulsada por inteligencia artificial, Whisper, como una tecnología con robustez y precisión cercana a la "humana".
Sin embargo, Whisper tiene un gran problema: tiende a inventar fragmentos de texto o incluso oraciones enteras, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Estos expertos afirmaron que algunos de los textos inventados, conocidos en la industria como alucinaciones, pueden incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios. Dijeron que tales fabricaciones son problemáticas porque Whisper se está utilizando en una variedad de industrias en todo el mundo para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos. Más preocupante aún, afirmaron, es la prisa de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de que OpenAI ha advertido que la herramienta no debe usarse en "dominios de alto riesgo".
El alcance completo del problema es difícil de discernir, pero los investigadores y ingenieros afirmaron haber encontrado frecuentemente las alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que llevaba a cabo un estudio de reuniones públicas, por ejemplo, dijo que encontró alucinaciones en ocho de cada diez transcripciones de audio que examinó, antes de comenzar a intentar mejorar el modelo.
Un ingeniero de aprendizaje automático dijo que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador mencionó que encontró alucinaciones en casi todas las 26,000 transcripciones que creó con Whisper. Los problemas persisten incluso en muestras de audio cortas y bien grabadas. Un estudio reciente realizado por científicos informáticos descubrió 187 alucinaciones en más de 13,000 fragmentos de audio claros que examinaron. Esa tendencia podría resultar en decenas de miles de transcripciones erróneas a través de millones de grabaciones, dijeron los investigadores. Tales errores podrían tener "consecuencias realmente graves", especialmente en entornos hospitalarios, según Alondra Nelson, quien lideró la Oficina de Ciencia y Tecnología de la Casa Blanca durante la administración de Biden hasta el año pasado. "Nadie quiere un diagnóstico erróneo", dijo Nelson, quien es profesora en el Instituto de Estudios Avanzados en Princeton, Nueva Jersey. "Debería haber un estándar más alto". Whisper también se utiliza para crear subtítulos para personas sordas o con problemas de audición, un grupo particularmente en riesgo de transcripciones defectuosas. Esto se debe a que las personas sordas o con problemas de audición no tienen forma de identificar las fabricaciones que están "ocultas entre todo este texto", dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a Tecnología de la Universidad Gallaudet.
La prevalencia de tales alucinaciones ha llevado a expertos, defensores y antiguos empleados de OpenAI a pedir que el gobierno federal considere regulaciones sobre IA. Como mínimo, dijeron, OpenAI necesita abordar el problema.
"Esto parece solucionable si la empresa está dispuesta a priorizarlo", dijo William Saunders, un ingeniero de investigación en San Francisco que renunció a OpenAI en febrero por preocupaciones sobre la dirección de la empresa. "Es problemático si pones esto en el mercado y la gente tiene demasiada confianza sobre lo que puede hacer e lo integra en todos estos otros sistemas". Un portavoz de OpenAI dijo que la empresa estudia continuamente cómo reducir las alucinaciones y apreció los hallazgos de los investigadores, agregando que OpenAI incorpora comentarios en las actualizaciones del modelo. Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción pueden tener errores ortográficos u otros errores, los ingenieros e investigadores dijeron que nunca habían visto otra herramienta de transcripción impulsada por IA que tuviera tantas alucinaciones como Whisper.
Las alucinaciones de Whisper La herramienta está integrada en algunas versiones del chatbot insignia de OpenAI, ChatGPT, y se ofrece como una función integrada en las plataformas de computación en la nube de Oracle y Microsoft, que brindan servicios a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto a múltiples idiomas. En el último mes, una versión reciente de Whisper se descargó más de 4.2 millones de veces de la plataforma de IA de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático allí, dijo que Whisper es el modelo de reconocimiento de voz de código abierto más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz. Las profesoras Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran dañinas o preocupantes porque el hablante podría ser malinterpretado o mal representado. En un ejemplo que descubrieron, un hablante dijo: "Él, el chico, iba a, no estoy seguro exactamente, tomar el paraguas". Pero el software de transcripción agregó: "Él tomó un gran pedazo de una cruz, un pedacito pequeño... Estoy seguro de que no tenía un cuchillo terrorista, así que mató a un número de personas". Un hablante en otra grabación describió "dos chicas más y una señora". Whisper inventó un comentario adicional sobre la raza, añadiendo "dos chicas más y una señora, um, que eran negras".
En una tercera transcripción, Whisper inventó un medicamento inexistente llamado "antibióticos hiperactivados". Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan, pero los desarrolladores de software dijeron que las fabricaciones tienden a ocurrir en medio de pausas, sonidos de fondo o música en reproducción. OpenAI recomendó en sus divulgaciones en línea no usar Whisper en "contextos de toma de decisiones, donde las fallas en la precisión pueden llevar a defectos pronunciados en los resultados". Transcribiendo citas médicas Esa advertencia no ha detenido a hospitales o centros médicos de usar modelos de voz a texto, incluidos Whisper, para transcribir lo que se dice durante las visitas de los médicos para permitir que los proveedores médicos dediquen menos tiempo a la toma de notas o la redacción de informes. Más de 30,000 clínicos y 40 sistemas de salud, incluidos la Clínica Mankato en Minnesota y el Hospital Infantil de Los Ángeles, han comenzado a usar una herramienta basada en Whisper desarrollada por Nabla, que tiene oficinas en Francia y Estados Unidos. Esta herramienta se ajustó al lenguaje médico para transcribir y resumir las interacciones de los pacientes, dijo el director de tecnología de Nabla, Martin Raison. Los funcionarios de la empresa dijeron que son conscientes de que Whisper puede alucinar y están mitigando el problema. Es imposible comparar la transcripción generada por Nabla con la grabación original porque la herramienta de Nabla borra el audio original por "razones de seguridad de datos", dijo Raison. Nabla indicó que la herramienta se ha utilizado para transcribir un estimado de 7 millones de visitas médicas. Saunders, el ex ingeniero de OpenAI, dijo que borrar el audio original podría ser preocupante si las transcripciones no se revisan o los clínicos no pueden acceder a la grabación para verificar que son correctas. "No puedes detectar errores si eliminas la verdad básica", dijo. Nabla añadió que ningún modelo es perfecto y que el suyo actualmente requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar. Preocupaciones de privacidad Debido a que las reuniones de los pacientes con sus médicos son confidenciales, es difícil saber cómo los transcripciones generadas por IA las están afectando. Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario que la red de salud proporcionó que buscaba su permiso para compartir el audio de la consulta con proveedores que incluían a Microsoft Azure, el sistema de computación en la nube operado por el mayor inversionista de OpenAI. Bauer-Kahan no quería que conversaciones médicas tan íntimas se compartieran con empresas tecnológicas, dijo. "La liberación era muy específica en que las empresas con fines de lucro tendrían el derecho a tener esto", dijo Bauer-Kahan, una demócrata que representa una parte de los suburbios de San Francisco en la Asamblea estatal. "Dije absolutamente no". Un portavoz de John Muir Health dijo que el sistema de salud cumple con las leyes de privacidad estatales y federales.
IA, tecnología, salud