Un profesor de la Universidad Estatal de Florida ha encontrado una forma de detectar si los estudiantes utilizaron inteligencia artificial generativa en exámenes de opción múltiple, abriendo así un nuevo camino para los docentes que durante mucho tiempo han estado preocupados por las repercusiones de esta tecnología.
Cuando la inteligencia artificial generativa cobró relevancia en noviembre de 2022, tras el debut del ChatGPT de OpenAI, los académicos expresaron de inmediato preocupaciones sobre el potencial de los estudiantes para utilizar la tecnología para producir trabajos académicos o ensayos de admisión. Pero el potencial de utilizar la inteligencia artificial generativa para hacer trampa en exámenes de opción múltiple ha sido en gran medida pasado por alto.
Kenneth Hanson se interesó después de publicar investigaciones sobre los resultados de exámenes en persona frente a exámenes en línea. Después de que un revisor le preguntara a Hanson cómo ChatGPT podría cambiar esos resultados, Hanson se unió a Ben Sorenson, un ingeniero de aprendizaje automático en FSU, para recopilar datos en otoño de 2022. Publicaron sus resultados este verano.
“La mayoría de las trampas son un subproducto de una barrera de acceso, y el estudiante se siente impotente,” dijo Hanson. ChatGPT hizo que responder a exámenes de opción múltiple fuera “un proceso más rápido.” Pero eso no significa que haya dado las respuestas correctas.
Después de recopilar las respuestas de los estudiantes de cinco semestres de exámenes, totalizando casi 1,000 preguntas en total, Hanson y un equipo de investigadores introdujeron las mismas preguntas en ChatGPT 3.5 para ver cómo se comparaban las respuestas. Los investigadores encontraron patrones específicos de ChatGPT, que respondió casi todas las preguntas de examen “difíciles” correctamente y casi todas las preguntas de examen “fáciles” incorrectamente. (Su método tuvo una tasa de precisión de casi el 100 por ciento con prácticamente cero margen de error).
“ChatGPT no es un generador de respuestas correctas; es un generador de respuestas,” dijo Hanson. “La forma en que los estudiantes piensan en los problemas no es como lo hace ChatGPT.”
La inteligencia artificial también tiene dificultades para crear exámenes de práctica de opción múltiple. En un estudio publicado en diciembre pasado por la Biblioteca Nacional de Medicina, los investigadores utilizaron ChatGPT para crear 60 exámenes de opción múltiple, pero solo aproximadamente un tercio, o 19 de 60 preguntas, tenían preguntas y respuestas de opción múltiple correctas. La mayoría tenía respuestas incorrectas y poco o ningún explicación sobre por qué creía que su elección era la respuesta correcta.
Si un estudiante quisiera utilizar ChatGPT para hacer trampa en un examen de opción múltiple, tendría que usar su teléfono para escribir directamente las preguntas, y las posibles respuestas, en ChatGPT. Si no se utiliza ningún software de supervisión para el examen, entonces el estudiante podría copiar y pegar la pregunta directamente en su navegador.
Victor Lee, líder de facultad de IA y educación para el Acelerador de Aprendizaje de la Universidad de Stanford, cree que eso podría ser un paso demasiado para los estudiantes que buscan una solución simple al buscar respuestas.
“Esto no me parece una preocupación urgente para los profesores,” dijo Lee, quien también se desempeña como profesor asociado de educación en Stanford. “La gente quiere poner la menor cantidad de pasos en cualquier cosa, y con los exámenes de opción múltiple, es ‘Bueno, una de estas cuatro respuestas es la correcta’.”
Y a pesar del bajo margen de error del estudio, Hanson no cree que descubrir el uso de ChatGPT en exámenes de opción múltiple sea una táctica factible, o incluso sensata, para que el profesor promedio la emplee, señalando que las respuestas tienen que pasar por su programa seis veces.
“¿Vale la pena el esfuerzo de hacer algo así? Probablemente no, en una base individual,” dijo, señalando hacia investigaciones que sugieren que los estudiantes no necesariamente hacen trampa más con ChatGPT. “Hay un cierto porcentaje que hace trampa, ya sea en línea o en persona. Algunos van a hacer trampa, y así es. Probablemente sea una pequeña fracción de estudiantes la que lo hace, así que se trata de cuánto esfuerzo quieres poner en atrapar a unas pocas personas.”
Hanson dijo que su método de pasar exámenes de opción múltiple a través de su modelo de detección de ChatGPT podría ser utilizado a gran escala, especialmente por empresas de supervisión como Data Recognition Corporation y ACT. “Si alguien va a implementarlo, es más probable que lo hagan donde quieran ver a nivel global cuán prevalente podría ser,” dijo Hanson, agregando que sería “relativamente fácil” para grupos con grandes cantidades de datos.
ACT dijo en un comunicado a Inside Higher Ed que no está adaptando ningún tipo de detección de inteligencia artificial generativa, pero que está “evaluando, adaptando y mejorando continuamente nuestros métodos de seguridad para que todos los estudiantes tengan una experiencia de prueba justa y válida.”
Turnitin, uno de los principales actores en el espacio de detección de IA, no tiene actualmente ningún producto para rastrear la trampa en exámenes de opción múltiple, aunque la empresa dijo a Inside Higher Ed que tiene software que proporciona “experiencias de exámenes digitales confiables.”
Hansen dijo que su próxima serie de investigaciones se centrará en qué preguntas ChatGPT responde incorrectamente cuando los estudiantes las responden correctamente, lo que podría ser más útil para los docentes en el futuro al crear exámenes.
Pero por ahora, las preocupaciones sobre la trampa de IA en ensayos siguen en la mente de muchos. Lee dijo que esas preocupaciones han estado “enfriándose un poco” a medida que algunas universidades promulgan políticas más centradas en la IA que podrían abordar esas preocupaciones, mientras que otras están descubriendo cómo ajustar su “experiencia educativa” que va desde exámenes hasta tareas escritas para existir junto a la nueva tecnología.
“Esas son las cosas en las que idealmente deberíamos centrarnos, pero entiendo que hay mucha inercia de ‘Estamos acostumbrados a tener un trabajo escrito, un ensayo para cada estudiante.’ El cambio siempre requerirá trabajo, pero creo que esta idea de ‘¿Cómo detener este cambio masivo?’ no es la pregunta correcta que debemos hacernos.”
Hello! How can I assist you today?