Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

Created by
  • Haebom

Autor

Martina Miliani, Serena Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia Passaro, Irene Sucameli, Alessandro Lenci

Describir

En este artículo, presentamos ExpliCa, un novedoso conjunto de datos para evaluar el razonamiento causal explícito. ExpliCa integra relaciones causales y temporales que se presentan en diversos órdenes lingüísticos y se expresan explícitamente como conectores lingüísticos. Incluye índices de aceptabilidad humana de colaboración abierta y se evalúa con respecto a siete LLM comerciales y de código abierto mediante métricas basadas en la incitación y la perplejidad. Nuestros resultados muestran que incluso los modelos mejor clasificados no alcanzan una precisión de 0,80, lo que sugiere que los modelos tienden a confundir las relaciones temporales y causales, y que el rendimiento se ve fuertemente afectado por el orden lingüístico de los eventos. También observamos que las puntuaciones basadas en la perplejidad y el rendimiento de la incitación se ven afectados de forma diferente por el tamaño del modelo.

Takeaways, Limitations

Takeaways: Presentamos un nuevo conjunto de datos, ExpliCa, para evaluar la capacidad de inferencia causal explícita, lo que permite un análisis profundo de la capacidad de inferencia causal de los LLM. Presentamos claramente las limitaciones de la capacidad de inferencia causal de los LLM y revelamos problemas clave como la confusión de las relaciones temporales y causales, y la influencia del orden lingüístico. Proporcionamos nuevos conocimientos sobre la correlación entre el tamaño del modelo y su rendimiento.
Limitations: Se requiere una revisión más profunda del tamaño y la diversidad del conjunto de datos de ExpliCa. Se requiere un análisis del método de inducción y la métrica de perplejidad utilizados en la evaluación. Se requiere mayor investigación sobre tipos más diversos de problemas de inferencia causal y estructuras oracionales complejas.
👍