En nuestro día a día, muchos somos los que en algun momento dado recurrimos a la Inteligencia Artificial para despejarnos algunas dudas; ya sea mediante herramientas como ChatGPT -protagonista de este hecho-, u otras, y eso sin contar la reciente incorporación de la IA de Google a su buscador para dudas concretas. Pero ¿qué pasa cuándo se trata de valorar trabajos de cierta profundidad reflexiva y agilidad cognitiva como los que se pueden ver en un examen de filosofía de bachillerato?
Ese es el experimento que ha llevado a cabo la segunda cadena de TV pública de Francia (France 3) durante el periodo de evaluación de los estudiantes galos de fin de curso. Y aunque a ojos de otras herramientas basadas en IA, ChatGPT ha realizado un trabajo aceptable, una profesora ha calificado el trabajo de la app de forma muy distinta por un error de bulto que sólo ella ha sabido apreciar.
La Verdad sigue siendo un concepto difícil para las IA
Según recoge el portal de noticias digitales Gamestar.de en su sección Tech, el experimento consistía en dejar que ChatGPT realizara uno de los ensayos realizados por los estudiantes sobre el tema "¿La verdad es siempre convincente?" como parte de la evaluación final en Filosofía. Se le proporcionó el siguiente "prompt" para proceder con la prueba:
"Soy estudiante de bachillerato y estoy cursando el bachillerato de filosofía. Ayúdame a escribir un ensayo para obtener la mejor calificación posible. Tu respuesta debe adoptar los códigos de un ensayo de escuela secundaria y respetar la estructura de la oración de un estudiante. Debe constar de una introducción, un desarrollo y una conclusión. Tómate tu tiempo para problematizar el tema, establecer conexiones filosóficas genuinas y sólidas, y proporcionar ejemplos concretos para cada argumento. La idea es crear un plan de tres partes. Si has entendido todo correctamente, te daré el tema."
Es un tema que implica cuestiones metafísicas y de raciocinio abstracto, que puede abordarse de diversas maneras según la corriente filosófica que los alumnos hayan estudiado durante el curso o evaluación. Y se nota que es un concepto que las IA todavía no controlan del todo por un error que comete ChatGPT durante su ensayo: plantear la cuestión de si la Verdad es suficiente para convencer.
Imagen: Andrea De Santis (vía Unsplash)
Es una respuesta un tanto evasiva, precisamente lo último que cualquiera querría responder en un examen de filosofía o de cualquier otro tipo porque el profesorado lo valorará como algo negativo. Podría parecer sencillamente que está iniciando una argumentación deductiva, y la profesora siguió revisando su texto; en un momento dado, la IA escribió "La verdad como acuerdo con la realidad debe ser por supuesto convincente" y ya le llamá la atención a la docente humana por ser una afirmación que parece prefabricada o una transición textual cuestionable. Pero el principal fallo del programa estaba en una afirmación posterior: "En realidad, las cosas son más complicadas".
Para la profesora esto era una clara bandera roja puesto que automáticamente pensó "¿No estábamos en la realidad entonces?", refiriéndose a que la IA ha estado ofreciendo un razonamiento circular; en palabras llanas, le da vueltas al tema sin ofrecer una respuesta o disertación clara que sea el quid de la cuestión.
Diferencias en los criterios de evaluación
Finalmente, la profesora le otorgo al trabajo realizado por ChatGPT una nota de 8/20, lo que traducido a nuestro sistema de evaluación sería el equivalente de un 4 o un 4'5 sobre 10: un suspenso que "raspa" el aprobado. Lo sorprendente en cualquier caso es la diferencia entre los criterios evaluatorios de la docente con otras herramientas de IA a las que se les presentó el texto elaborado por ChatGPT (usando el mismo baremo de puntuación en Francia):
- ChatGPT : 17/20
- Géminis : 15/20
- DeepSeek : 17/20
- Copilot : 17/20
Argumentan que el texto está bien estructurado y que sigue una línea argumental clara, pero ninguna parece haber advertido el error de razonamiento o las evasivas que sólo la mente humana de la profesora gala fue capaz de detectar. Si bien esta prueba es aislada y no representa la capacidad total de las IA para elaborar un texto metafísico, pone de relieve el sesgo que hay en estos programas (o en los humanos, todo sea dicho) a la hora de valorar trabajos.
Dicho de otro modo, aún no hay (por suerte, a título personal) un programa que pueda substituir con la misma eficacia a un docente orgánico por un algoritmo de IA. Aunque siendo justos, en última instancia la IA sólo estaba llevando a cabo las instrucciones dadas en el 'prompt', y se ajusta a un viejo axioma de la informática: si es imperfecta, lo es sólo porque los usuarios somos imperfectos.
Y también hay que considerar que la profesora no le hizo un seguimiento al "aprendizaje" de la IA como sí lo hizo con los alumnos que estaban cursando su asignatura, con lo cual no pudo aplicar esa variable a su evaluación final. Pero al final, y aunque no haya que tomar el juicio de la profesora como algo escrito en piedra, su evaluación del texto es sólida: la IA no debió tratar de circunvalar la cuestión o cambiar de planteamiento a mitad de texto.
Imagen de portada: Shantanu Kumar (vía Pexels)
En 3DJuegos | Sam Altman, CEO de OpenAI, ha destacado cuáles son los peligros que nos traerá ChatGPT: "Habrá problemas"
En 3DJuegos | ChatGPT presentó un modelo capaz de razonar a la altura de un humano y solo hizo falta un experimento para desmontar su teoría
Ver 0 comentarios