Los expertos dicen que la transcripción de OpenAI alucina más que cualquier otra

La empresa tecnológica OpenAI ha promocionado su herramienta de transcripción impulsada por inteligencia artificial, Whisper, como teniendo una precisión y robustez cercana al nivel humano.

Sin embargo, Whisper tiene un gran defecto: tiende a inventar fragmentos de texto e incluso frases completas, según entrevistas con más de una docena de ingenieros de software, desarrolladores e investigadores académicos. Estos expertos afirmaron que algunos de los textos inventados, conocidos en la industria como alucinaciones, pueden incluir comentarios raciales, retórica violenta e incluso tratamientos médicos imaginarios.

Los expertos señalaron que tales fabricaciones son problemáticas porque Whisper se está utilizando en una gran cantidad de industrias en todo el mundo para traducir y transcribir entrevistas, generar texto en tecnologías populares para consumidores y crear subtítulos para videos.

Más preocupante aún, dijeron, es la prisa de los centros médicos por utilizar herramientas basadas en Whisper para transcribir las consultas de los pacientes con los médicos, a pesar de las advertencias de OpenAI de que la herramienta no debería utilizarse en “dominios de alto riesgo”.

La extensión total del problema es difícil de discernir, pero investigadores e ingenieros dijeron que con frecuencia se han encontrado con alucinaciones de Whisper en su trabajo. Un investigador de la Universidad de Michigan que realizaba un estudio de reuniones públicas, por ejemplo, dijo que encontró alucinaciones en 8 de cada 10 transcripciones de audio que inspeccionó, antes de comenzar a intentar mejorar el modelo.

Un ingeniero de aprendizaje automático dijo que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que encontró alucinaciones en casi todas las 26,000 transcripciones que creó con Whisper.

Los problemas persisten incluso en muestras de audio cortas y bien grabadas. Un estudio reciente realizado por científicos informáticos descubrió 187 alucinaciones en más de 13,000 fragmentos de audio claros que examinaron.

Esa tendencia llevaría a decenas de miles de transcripciones defectuosas en millones de grabaciones, dijeron los investigadores.

Tales errores podrían tener “consecuencias realmente graves”, especialmente en entornos hospitalarios, dijo Alondra Nelson, quien dirigió la Oficina de Política de Ciencia y Tecnología de la Casa Blanca para la administración de Biden hasta el año pasado.

LEAR  ¿Problemas técnicos? Cómo prevenir y ayudar a los estudiantes a resolverlos

“Nadie quiere un diagnóstico erróneo”, dijo Nelson, profesora en el Instituto de Estudios Avanzados de Princeton, Nueva Jersey. “Debería haber un estándar más alto”.

Whisper también se utiliza para crear subtítulos para sordos y personas con problemas de audición, una población especialmente vulnerable a las transcripciones defectuosas. Eso se debe a que los sordos y personas con problemas de audición no tienen forma de identificar las fabricaciones que están “ocultas entre todo este otro texto”, dijo Christian Vogler, que es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.

OpenAI instado a abordar el problema

La prevalencia de tales alucinaciones ha llevado a expertos, defensores y antiguos empleados de OpenAI a pedir que el gobierno federal considere regulaciones sobre la inteligencia artificial. Como mínimo, dijeron, OpenAI necesita abordar el defecto.

“Esto parece solucionable si la empresa está dispuesta a priorizarlo”, dijo William Saunders, un ingeniero de investigación con sede en San Francisco que renunció a OpenAI en febrero debido a preocupaciones sobre la dirección de la empresa. “Es problemático si lanzas esto y la gente tiene demasiada confianza en lo que puede hacer e integra esto en todos estos otros sistemas”.

Un portavoz de OpenAI dijo que la empresa estudia continuamente cómo reducir las alucinaciones y agradeció los hallazgos de los investigadores, añadiendo que OpenAI incorpora retroalimentación en las actualizaciones del modelo.

Si bien la mayoría de los desarrolladores asumen que las herramientas de transcripción cometen errores ortográficos u otros errores, los ingenieros e investigadores dijeron que nunca habían visto otra herramienta de transcripción impulsada por IA alucinar tanto como Whisper.

Alucinaciones de Whisper

La herramienta está integrada en algunas versiones del chatbot principal de OpenAI, ChatGPT, y es una oferta incorporada en las plataformas de computación en la nube de Oracle y Microsoft, que prestan servicio a miles de empresas en todo el mundo. También se utiliza para transcribir y traducir texto a varios idiomas.

Solo en el último mes, se descargó una versión reciente de Whisper más de 4.2 millones de veces desde la plataforma de inteligencia artificial de código abierto HuggingFace. Sanchit Gandhi, un ingeniero de aprendizaje automático allí, dijo que Whisper es el modelo de reconocimiento de voz de código abierto más popular y está integrado en todo, desde centros de llamadas hasta asistentes de voz.

LEAR  Suecia emprende una seria búsqueda de más espacio en cementerios en caso de guerra

Las profesoras Allison Koenecke de la Universidad de Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un repositorio de investigación alojado en la Universidad Carnegie Mellon. Determinaron que casi el 40% de las alucinaciones eran perjudiciales o preocupantes porque el hablante podría ser malinterpretado o tergiversado.

En un ejemplo que descubrieron, un hablante dijo: “Él, el chico, iba a, no estoy seguro exactamente, llevar el paraguas”.

Pero el software de transcripción agregó: “Tomó un gran pedazo de una cruz, un pedazo muy pequeño … Estoy seguro de que no tenía un cuchillo de terror, así que mató a varias personas”.

En otra grabación, un hablante describió “dos chicas y una señora”. Whisper inventó un comentario adicional sobre la raza, añadiendo “dos chicas y una dama, eh, que eran negras”.

En una tercera transcripción, Whisper inventó un medicamento inexistente llamado “antibióticos hiperactivados”.

Los investigadores no están seguros de por qué Whisper y herramientas similares alucinan, pero los desarrolladores de software dijeron que las fabricaciones tienden a ocurrir en medio de pausas, sonidos de fondo o música que se reproduce.

OpenAI recomendó en sus divulgaciones en línea no utilizar Whisper en “contextos de toma de decisiones, donde los defectos en la precisión pueden llevar a fallos marcados en los resultados”.

Transcripción de citas médicas

Esa advertencia no ha impedido que hospitales o centros médicos utilicen modelos de voz a texto, incluido Whisper, para transcribir lo que se dice durante las visitas al médico para liberar a los proveedores médicos de pasar menos tiempo tomando notas o escribiendo informes.

Más de 30,000 clínicos y 40 sistemas de salud, incluida la Clínica Mankato en Minnesota y el Hospital de Niños de Los Ángeles, han comenzado a utilizar una herramienta basada en Whisper construida por Nabla, que tiene oficinas en Francia y Estados Unidos.

LEAR  No importa la elección, busca acciones sólidas que superen el rendimiento, dice este inversor.

Esa herramienta fue ajustada para el lenguaje médico a fin de transcribir y resumir las interacciones de los pacientes, dijo el director de tecnología de Nabla, Martin Raison.

Los funcionarios de la empresa dijeron que son conscientes de que Whisper puede alucinar y están mitigando el problema.

Es imposible comparar la transcripción generada por IA de Nabla con la grabación original porque la herramienta de Nabla elimina el audio original por “razones de seguridad de los datos”, dijo Raison.

Nabla dijo que la herramienta se ha utilizado para transcribir aproximadamente 7 millones de visitas médicas.

Saunders, el ex ingeniero de OpenAI, dijo que eliminar el audio original podría ser preocupante si las transcripciones no se verifican o si los clínicos no pueden acceder a la grabación para verificar que sean correctas.

“No se pueden detectar errores si se elimina la verdad fundamental”, dijo.

Nabla dijo que ningún modelo es perfecto, y que actualmente el suyo requiere que los proveedores médicos editen y aprueben rápidamente las notas transcritas, pero eso podría cambiar.

Preocupaciones de privacidad

Debido a que las reuniones de pacientes con sus médicos son confidenciales, es difícil saber cómo están afectando las transcripciones generadas por IA.

Una legisladora estatal de California, Rebecca Bauer-Kahan, dijo que llevó a uno de sus hijos al médico a principios de este año y se negó a firmar un formulario que la red de salud proporcionó y que buscaba su permiso para compartir el audio de la consulta con proveedores que incluían Microsoft Azure, el sistema de computación en la nube dirigido por el mayor inversor de OpenAI. Bauer-Kahan no quería que conversaciones médicas tan íntimas se compartieran con empresas tecnológicas, dijo.

“La liberación era muy específica en que las empresas con fines de lucro tendrían derecho a tener esto”, dijo Bauer-Kahan, una demócrata que representa parte de los suburbios de San Francisco en la Asamblea estatal. “Yo dije ‘absolutamente no’.”

El portavoz de John Muir Health, Ben Drew, dijo que el sistema de salud cumple con las leyes estatales y federales de privacidad.