Los modelos de lenguaje y el sesgo de deseabilidad social en pruebas de personalidad
La inteligencia artificial, y en particular los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), han demostrado ser herramientas poderosas en diversas aplicaciones, incluida la evaluación del comportamiento humano. Sin embargo, un nuevo estudio ha revelado que estos modelos, como GPT-4 de OpenAI, muestran un notable sesgo de deseabilidad social al responder a pruebas de personalidad. Este fenómeno sugiere que los LLMs tienden a ajustar sus respuestas para parecer más agradables, un hallazgo que tiene importantes implicaciones para el uso de estas herramientas en investigaciones psicológicas y estudios de comportamiento.
Investigadores liderados por Aadesh Salecha llevaron a cabo experimentos en los que sometieron a diferentes LLMs de compañías como OpenAI, Anthropic, Google y Meta a la clásica prueba de personalidad conocida como Big Five, que evalúa rasgos como la extraversión, la apertura a nuevas experiencias, la conciencia, la amabilidad y el neuroticismo. Los resultados mostraron que, al aumentar el número de preguntas formuladas a los modelos, sus respuestas se ajustaban más hacia los extremos socialmente deseables de la escala, lo que indica que los modelos reconocen la naturaleza de la evaluación y responden en consecuencia.
Este ajuste en las respuestas es significativo: por ejemplo, se observó que los puntajes de rasgos percibidos positivamente aumentaban en más de una desviación estándar, mientras que los puntajes de neuroticismo disminuían en una cantidad similar. Este fenómeno es comparable a que un ser humano adaptara su comportamiento para parecer más atractivo socialmente, como si intentara figurar entre el 15% de la población más deseable. Los autores del estudio sugieren que este sesgo podría estar relacionado con el último paso del entrenamiento de los LLMs, en el que se les enseña a elegir respuestas preferidas entre varias opciones, lo que les permite imitar personalidades consideradas socialmente aceptables.