
Los modelos de inteligencia artificial, como ChatGPT, han demostrado ser herramientas potentes, pero no exentas de errores. Estos sistemas, basados en grandes modelos de lenguaje, a veces fabrican información errónea, incluyendo citas científicas y legales. Recientemente, investigadores de varias universidades, entre ellas la Universidad de Carolina del Sur y la Universidad Estatal de Ohio, han desarrollado un nuevo marco llamado «Reasons benchmark» para evaluar la capacidad de estos modelos para generar citas de investigación y proporcionar razonamientos comprensibles. Este enfoque permite medir no solo la precisión de las citas, sino también la calidad del razonamiento que subyace a las elecciones de las fuentes.
La importancia del razonamiento a nivel de frase
Una de las claves para la precisión de las citas generadas por estos modelos radica en su capacidad para razonar a nivel de frase, en lugar de limitarse a analizar párrafos o documentos completos. Cuando los modelos abordan grandes bloques de texto, tienden a sobregeneralizar y a malinterpretar la información específica de cada frase. Esto resulta en citas que pueden explicar un párrafo entero, pero no capturan la información detallada que se encuentra en oraciones individuales. A medida que los modelos intentan procesar documentos extensos, su razonamiento se asemeja más a un resumen que a un análisis profundo, lo que afecta negativamente tanto a la generación de citas como al proceso de razonamiento en sí.
En un estudio reciente, se compararon dos modelos de razonamiento populares: R1 de DeepSeek y o1 de OpenAI, utilizando el nuevo benchmark. A pesar de que R1 ha llamado la atención por su eficiencia, los resultados mostraron que el modelo de OpenAI superó a R1 en términos de conexión y precisión entre diferentes áreas de conocimiento. OpenAI o1 demostró ser más eficaz en la integración de ideas y en la reducción de la tasa de «alucinaciones», un término que se utiliza para describir las respuestas inexactas o engañosas producidas por estos sistemas. Mientras que o1 tenía una tasa de alucinaciones de aproximadamente el 35%, R1 alcanzó casi el 85% en tareas de atribución de fuentes, lo que resalta la importancia de la confianza en la información generada por estos modelos.
En términos de competencia lingüística y precisión, el modelo de OpenAI mostró resultados significativamente mejores, alcanzando un 65% de precisión en el test F-1, mientras que DeepSeek se quedó en un 35%. La capacidad de OpenAI para presentar información de manera clara y natural supera notablemente a la de su competidor. Aunque otros modelos han tenido un rendimiento comparable en tareas específicas como matemáticas y programación, el benchmark revela que OpenAI continúa liderando en cuanto a la atribución de fuentes y la integración del conocimiento, lo que sugiere que el volumen y la calidad de los datos con los que fue entrenado juegan un papel crucial en su eficacia.