Estudiantes asiático-americanos pierden más puntos en un estudio de calificación de ensayos de IA, pero los investigadores no saben por qué.

Cuando ChatGPT fue lanzado al público en noviembre de 2022, defensores y observadores advirtieron sobre el potencial de sesgo racial. El nuevo gran modelo de lenguaje fue creado recolectando 300 mil millones de palabras de libros, artículos y escritos en línea, que incluyen falsedades racistas y reflejan los prejuicios implícitos de los escritores. Los datos de entrenamiento sesgados probablemente generarán consejos, respuestas y ensayos sesgados. Basura entra, basura sale.

Los investigadores están comenzando a documentar cómo se manifiesta el sesgo de IA de maneras inesperadas. Dentro del brazo de investigación y desarrollo de la gigantesca organización de pruebas ETS, que administra el SAT, un par de investigadores enfrentaron al hombre contra la máquina en la evaluación de más de 13,000 ensayos escritos por estudiantes de los grados 8 a 12. Descubrieron que el modelo de IA que impulsa ChatGPT penalizaba a los estudiantes asiáticoamericanos más que a otras razas y etnias al calificar los ensayos. Esto fue simplemente un ejercicio de investigación y estos ensayos y puntuaciones de máquina no se utilizaron en ninguna de las evaluaciones de ETS. Pero la organización compartió su análisis conmigo para advertir a las escuelas y maestros sobre el potencial de sesgo racial al usar ChatGPT u otras aplicaciones de IA en el aula.

“Tomen un poco de precaución y evalúen las puntuaciones antes de presentarlas a los estudiantes”, dijo Mo Zhang, uno de los investigadores de ETS que realizó el análisis. “Hay métodos para hacer esto y no quieren excluir a las personas que se especializan en medición educativa de la ecuación.”

Esa advertencia podría sonar interesada viniendo de un empleado de una empresa que se especializa en medición educativa. Pero el consejo de Zhang es digno de ser escuchado en la emoción de probar nuevas tecnologías de IA. Hay peligros potenciales mientras los maestros ahorran tiempo al delegar el trabajo de calificación a un robot.

En el análisis de ETS, Zhang y su colega Matt Johnson alimentaron 13,121 ensayos en una de las últimas versiones del modelo de IA que impulsa ChatGPT, llamado GPT 4 Omni o simplemente GPT-4o. (Esta versión se agregó a ChatGPT en mayo de 2024, pero cuando los investigadores realizaron este experimento utilizaron el modelo de IA más reciente a través de un portal diferente.)

Un poco de antecedentes sobre este gran conjunto de ensayos: originalmente, los estudiantes de todo el país habían escrito estos ensayos entre 2015 y 2019 como parte de exámenes estandarizados estatales o evaluaciones en el aula. Su tarea había sido escribir un ensayo argumentativo, como “¿Deberían permitirse a los estudiantes usar teléfonos celulares en la escuela?” Los ensayos se recopilaron para ayudar a los científicos a desarrollar y probar la evaluación de escritura automatizada.

LEAR Asistí a los MTV EMA's en Co-Op Live con Jedward y compañía.

Cada uno de los ensayos había sido calificado por evaluadores expertos de escritura en una escala de 1 a 6 puntos, siendo 6 la puntuación más alta. ETS pidió a GPT-4o que los calificara en la misma escala de seis puntos utilizando la misma guía de puntuación que los humanos usaron. Ni el hombre ni la máquina se les dijo la raza o etnia del estudiante, pero los investigadores pudieron ver la información demográfica de los estudiantes en los conjuntos de datos que acompañan a estos ensayos.

GPT-4o calificó los ensayos casi un punto más bajo que los humanos. La puntuación promedio en los 13,121 ensayos fue de 2.8 para GPT-4o y 3.7 para los humanos. Pero los asiáticoamericanos fueron penalizados con un cuarto de punto adicional. Los evaluadores humanos les dieron a los asiáticoamericanos un 4.3, en promedio, mientras que GPT-4o les dio solo un 3.2, aproximadamente una deducción de 1.1 puntos. En comparación, la diferencia de puntuación entre humanos y GPT-4o fue de solo alrededor de 0.9 puntos para estudiantes blancos, negros e hispanos. Imagina un camión de helados que sigue quitando un cuarto de cucharada adicional solo de los conos de los niños asiáticoamericanos.

“Claramente, esto no parece justo”, escribieron Johnson y Zhang en un informe inédito que compartieron conmigo. Aunque la penalización adicional para los asiáticoamericanos no era terriblemente grande, dijeron que es lo suficientemente sustancial como para no ser ignorada.

Los investigadores no saben por qué GPT-4o emitió calificaciones más bajas que los humanos, y por qué dio una penalización adicional a los asiáticoamericanos. Zhang y Johnson describieron el sistema de IA como una “caja negra enorme” de algoritmos que funcionan de maneras “no totalmente comprendidas por sus propios desarrolladores”. Esa incapacidad de explicar la calificación de un estudiante en una tarea de escritura hace que los sistemas sean especialmente frustrantes de usar en las escuelas.

Este estudio no es una prueba de que la IA esté constantemente subestimando los ensayos o sesgada contra los asiáticoamericanos. Otras versiones de IA a veces producen resultados diferentes. Un análisis separado de la calificación de ensayos por investigadores de la Universidad de California, Irvine y la Universidad Estatal de Arizona encontró que las calificaciones de ensayos de IA eran tan frecuentemente demasiado altas como demasiado bajas. Ese estudio, que utilizó la versión 3.5 de ChatGPT, no analizó los resultados por raza y etnia.

LEAR El regreso de Trump ha desconcertado a los líderes mundiales. Pero no a la India.

Me preguntaba si el sesgo de la IA contra los asiáticoamericanos estaba de alguna manera relacionado con el alto rendimiento. Así como los asiáticoamericanos tienden a obtener altas puntuaciones en pruebas de matemáticas y lectura, los asiáticoamericanos, en promedio, fueron los mejores escritores en este paquete de 13,000 ensayos. Incluso con la penalización, los asiáticoamericanos aún tenían las puntuaciones de ensayos más altas, muy por encima de las de estudiantes blancos, negros, hispanos, nativos americanos o multirraciales.

En ambos estudios de ensayos de ETS y UC-ASU, la IA otorgó muchas menos puntuaciones perfectas que los humanos. Por ejemplo, en este estudio de ETS, los humanos otorgaron 732 6s perfectos, mientras que GPT-4o otorgó un total de solo tres. La tacañería de GPT con las puntuaciones perfectas podría haber afectado a muchos asiáticoamericanos que habían recibido 6s de los evaluadores humanos.

Los investigadores de ETS habían pedido a GPT-4o que calificara los ensayos en frío, sin mostrarle al chatbot ejemplos calificados para calibrar sus puntuaciones. Es posible que unos pocos ensayos de muestra o pequeños ajustes a las instrucciones de calificación, o a los estímulos, dados a ChatGPT podrían reducir o eliminar el sesgo contra los asiáticoamericanos. Tal vez el robot sería más justo con los asiáticoamericanos si se le indicara explícitamente que “otorgara más 6s perfectos”.

Los investigadores de ETS me dijeron que esta no fue la primera vez que notaron a estudiantes asiáticos tratados de manera diferente por un calificador automático. Los antiguos calificadores automáticos de ensayos, que utilizaban diferentes algoritmos, a veces hacían lo contrario, otorgando puntuaciones más altas a los asiáticos de lo que los evaluadores humanos hacían. Por ejemplo, un sistema de puntuación automática de ETS desarrollado hace más de una década, llamado e-rater, tendía a inflar las puntuaciones de los estudiantes de Corea, China, Taiwán y Hong Kong en sus ensayos para el Test de Inglés como Lengua Extranjera (TOEFL), según un estudio publicado en 2012. Eso puede haber sido porque algunos estudiantes asiáticos habían memorizado párrafos bien estructurados, mientras que los humanos notaban fácilmente que los ensayos estaban fuera de tema. (El sitio web de ETS dice que solo se basa en la puntuación de e-rater solo para pruebas de práctica, y la usa en conjunto con las puntuaciones humanas para exámenes reales).

LEAR Actualización Semanal de SEL | Sitios web del día de Larry Ferlazzo...

Los asiáticoamericanos también obtuvieron calificaciones más altas de un sistema de puntuación automática creado durante una competencia de codificación en 2021 y alimentado por BERT, que había sido el algoritmo más avanzado antes de la generación actual de grandes modelos de lenguaje, como GPT. Los científicos de la computación sometieron su calificador automático experimental a una serie de pruebas y descubrieron que otorgaba puntuaciones más altas que las que los humanos daban a las respuestas abiertas de los asiáticoamericanos en una prueba de comprensión de lectura.

También no estaba claro por qué BERT a veces trataba a los asiáticoamericanos de manera diferente. Pero ilustra lo importante que es probar estos sistemas antes de desatarlos en las escuelas. Sin embargo, basándose en el entusiasmo de los educadores, temo que este tren ya haya partido. En seminarios web recientes, he visto a muchos maestros publicar en la ventana de chat que ya están usando ChatGPT, Claude y otras aplicaciones impulsadas por IA para calificar la escritura. Eso podría ser un ahorro de tiempo para los maestros, pero también podría estar perjudicando a los estudiantes.

Esta historia sobre sesgo de IA fue escrita por Jill Barshay y producida por The Hechinger Report, una organización de noticias sin fines de lucro e independiente centrada en la desigualdad y la innovación en la educación. Regístrese en Proof Points y otros boletines informativos de Hechinger.