Investigadores combaten alucinaciones de IA en matemáticas.

Dos investigadores de la Universidad de California, Berkeley, documentaron cómo lograron controlar las alucinaciones de la inteligencia artificial en matemáticas al pedirle a ChatGPT que resolviera el mismo problema 10 veces. El mayor problema al usar la inteligencia artificial en la educación es que la tecnología alucina. Esa es la palabra que la comunidad de inteligencia artificial utiliza para describir cómo sus nuevos modelos de lenguaje grande inventan cosas que no existen o no son verdaderas. Las matemáticas son un área particular de imaginación para los chatbots de IA. Hace varios meses, probé el chatbot de Khan Academy, que está alimentado por ChatGPT. El bot, llamado Khanmigo, me dijo que había respondido incorrectamente a un problema básico de Álgebra 2 de la secundaria que involucraba exponentes negativos. Yo sabía que mi respuesta era correcta. Después de escribir la misma respuesta correcta tres veces, Khanmigo finalmente estuvo de acuerdo conmigo. Fue frustrante.

Los errores importan. Los niños podrían memorizar soluciones incorrectas que son difíciles de desaprender, o confundirse más sobre un tema. También me preocupa que los maestros utilicen ChatGPT y otros modelos de IA generativa para escribir exámenes o planes de lecciones. Al menos un maestro tiene la oportunidad de revisar lo que la IA produce antes de dárselo o enseñárselo a los estudiantes. Es más arriesgado cuando se les pide a los estudiantes que aprendan directamente de la IA.

Los científicos de la computación están tratando de combatir estos errores en un proceso que llaman “mitigación de alucinaciones de IA”. Dos investigadores de la Universidad de California, Berkeley, documentaron recientemente cómo redujeron con éxito los errores instructivos de ChatGPT a casi cero en álgebra. No tuvieron tanto éxito con estadística, donde sus técnicas aún dejaron errores el 13 por ciento del tiempo. Su artículo fue publicado en mayo de 2024 en la revista revisada por pares PLOS One.

LEAR Trae el espíritu innovador de California a las aulas de matemáticas

En el experimento, Zachary Pardos, un científico de la computación en la Escuela de Educación de Berkeley, y uno de sus estudiantes, Shreya Bhandari, primero pidieron a ChatGPT que mostrara cómo resolvería un problema de álgebra o estadística. Descubrieron que ChatGPT era “naturalmente prolijo” y no tuvieron que incitar al gran modelo de lenguaje a explicar sus pasos. Pero todas esas palabras no ayudaron con la precisión. En promedio, los métodos y respuestas de ChatGPT estaban equivocados un tercio del tiempo. En otras palabras, ChatGPT obtendría una calificación de D si fuera un estudiante. Los modelos de IA actuales son malos en matemáticas porque están programados para descubrir probabilidades, no seguir reglas. Los cálculos matemáticos se tratan de reglas. Es irónico porque las versiones anteriores de IA podían seguir reglas, pero no podían escribir o resumir. Ahora tenemos lo contrario.

Los investigadores de Berkeley aprovecharon el hecho de que ChatGPT, al igual que los humanos, es errático. Le pidieron a ChatGPT que respondiera la misma pregunta matemática 10 veces seguidas. Me sorprendió que una máquina pudiera responder a la misma pregunta de manera diferente, pero eso es lo que hacen estos grandes modelos de lenguaje. A menudo, el proceso paso a paso y la respuesta eran los mismos, pero la redacción exacta difería. A veces, los métodos eran extraños y los resultados estaban completamente equivocados. (Ver un ejemplo en la ilustración a continuación.) Los investigadores agruparon respuestas similares. Cuando evaluaron la precisión de la respuesta más común entre las 10 soluciones, ChatGPT fue sorprendentemente bueno. Para álgebra básica de secundaria, la tasa de error de la IA cayó del 25 por ciento a cero. Para álgebra intermedia, la tasa de error cayó del 47 por ciento al 2 por ciento. Para álgebra universitaria, cayó del 27 por ciento al 2 por ciento.

LEAR Huella digital vs. Presencia social: Encontrando el equilibrio correcto

Sin embargo, cuando los científicos aplicaron este método, que llaman “autoconsistencia”, a estadística, no funcionó tan bien. La tasa de error de ChatGPT cayó del 29 por ciento al 13 por ciento, pero aún más de una de cada diez respuestas estaba equivocada. Creo que eso es demasiados errores para los estudiantes que están aprendiendo matemáticas.

La gran pregunta, por supuesto, es si estas soluciones de ChatGPT ayudan a los estudiantes a aprender matemáticas mejor que la enseñanza tradicional. En una segunda parte de este estudio, los investigadores reclutaron a 274 adultos en línea para resolver problemas matemáticos y asignaron al azar a un tercio de ellos para ver estas soluciones de ChatGPT como una “pista” si la necesitaban. (Se eliminaron las respuestas incorrectas de ChatGPT primero.) En una breve prueba posterior, estos adultos mejoraron un 17 por ciento, en comparación con menos del 12 por ciento de ganancias de aprendizaje para los adultos que podían ver un grupo diferente de pistas escritas por tutores de matemáticas universitarios. Aquellos a quienes no se les ofrecieron pistas obtuvieron resultados similares en una prueba posterior a los que obtuvieron en una prueba previa.

Estos impresionantes resultados de aprendizaje para ChatGPT llevaron a los autores del estudio a predecir audazmente que la “generación completamente autónoma” de un sistema de tutoría computarizado efectivo está “a la vuelta de la esquina”. En teoría, ChatGPT podría digerir instantáneamente un capítulo de un libro o una conferencia en video y luego tutorizar inmediatamente a un estudiante sobre ello.

Antes de abrazar ese optimismo, me gustaría ver cuántos estudiantes reales -no solo adultos reclutados en línea- utilizan estos sistemas de tutoría automatizados. Incluso en este estudio, donde a los adultos se les pagaba por resolver problemas matemáticos, alrededor de 120 de los aproximadamente 400 participantes no completaron el trabajo y, por lo tanto, sus resultados tuvieron que ser descartados. Para muchos niños, y especialmente para los estudiantes que tienen dificultades en una materia, aprender de una computadora simplemente no es atractivo.

LEAR Qué saber sobre Kamala Harris y Tim Walz en educación