La inteligencia artificial se ha convertido en una parte integral de la vida cotidiana de muchas personas. Modelos de lenguaje de gran tamaño (LLMs) como ChatGPT, Gemini o Copilot son utilizados para redactar cartas, realizar trabajos académicos, ofrecer consejos sobre excursiones o responder a preguntas sobre una vasta gama de temas.
En el ámbito académico, el uso de inteligencia artificial ha sido adoptado en diversas disciplinas. Un equipo de investigación de la Universidad Julius-Maximilians de Würzburg (JMU) ha investigado hasta qué punto los LLMs pueden apoyar a los estudiantes de ciencias naturales como tutores no supervisados. Los resultados de este estudio han sido publicados en el servidor de preprints arXiv.
Una herramienta de evaluación accesible
El grupo de investigación, perteneciente al Departamento de Química Física y especializado en la espectroscopía de nanomateriales, ha desarrollado una herramienta llamada UTQA (Undergraduate Thermodynamics Question Answering). Esta herramienta, de acceso libre, tiene como objetivo evaluar la comprensión termodinámica de los LLMs, especialmente su capacidad para ir más allá del mero conocimiento factual. UTQA está diseñada para ayudar a docentes e investigadores a evaluar de manera justa y específica los LLMs, permitiendo medir el progreso en esta área.
El profesor Tobias Hertel, director del proyecto, ha expresado su deseo de que la inteligencia artificial pueda algún día actuar como un socio no supervisado en la enseñanza, facilitando chatbots competentes que respondan a las necesidades individuales de cada estudiante en la preparación y seguimiento de las clases. Aunque reconoce que aún no se ha alcanzado este objetivo, destaca el impresionante avance que se ha logrado hasta ahora.
Desde el semestre de invierno de 2023, el equipo de Hertel ha estado utilizando LLMs en sus clases de termodinámica, que cuentan con más de 150 estudiantes, para realizar evaluaciones semanales de conocimientos. A pesar de que modelos como ChatGPT-3.5 y ChatGPT-4 han mostrado fortalezas, también han evidenciado debilidades significativas.
Con el fin de establecer un referente específico en el ámbito académico, UTQA consta de 50 tareas desafiantes de opción múltiple, dos tercios de ellas basadas en texto y un tercio que incluye diagramas y esquemas, tal como es habitual en los ejercicios didácticos. Esta evaluación no solo busca comprobar el conocimiento factual y definiciones, sino también la capacidad de los modelos para vincular diferentes condiciones y comprender secuencias de procesos complejas.
Resultados: sólidos, pero insuficientes para el uso no supervisado
Los resultados obtenidos por Hertel muestran que, según UTQA, ningún modelo alcanzó la tasa de éxito del 95% que el grupo de investigación considera necesaria para su uso como tutores no supervisados. El modelo GPT-3.5, aunque líder en varios benchmarks, solo logró una precisión general del 82%. Las áreas donde los modelos presentaron dificultades incluyen los procesos irreversibles, donde la velocidad del cambio de estado influye en el resultado, y en tareas que requieren interpretación de imágenes.
Esta situación no es sorprendente, considerando que hace aproximadamente 100 años, el físico francés Pierre Duhem ya había descrito la reversibilidad como uno de los fenómenos más difíciles en termodinámica. La dificultad de los LLMs para interpretar diagramas también se justifica, dado que la percepción y procesamiento de contenido visual son habilidades cognitivas que destacan en los seres humanos.
En la práctica, esto significa que los LLMs ya pueden ser útiles en la enseñanza, con o sin supervisión, aunque todavía no están suficientemente preparados para funcionar como tutores no supervisados. Hertel se muestra optimista respecto al futuro, confiando en que, siempre y cuando el desarrollo continúe, pronto se podrá alcanzar el nivel de competencia necesario para asistentes en la enseñanza de su disciplina.
La elección de la termodinámica como campo de estudio se debe a que es fundamental para nuestra comprensión de la naturaleza. Sus leyes básicas son compactas, pero su aplicación requiere una distinción precisa entre variables de estado y proceso, así como entre calor y trabajo, y entre procesos reversibles e irreversibles. Aquí es donde la capacidad de razonamiento se separa de la mera memorización.
El equipo tiene previsto expandir la herramienta UTQA para incluir gases reales, mezclas, diagramas de fases y ciclos estándar, con el objetivo de abarcar conceptos adicionales que son centrales en la enseñanza de la termodinámica. A medida que los modelos puedan manejar mejor la vinculación multimodal, es decir, la combinación de texto e imágenes, y los regímenes irreversibles, estaremos más cerca de lograr tutoriales de inteligencia artificial fiables y específicos para la materia.
