Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SKA-Bench: Un punto de referencia preciso para evaluar la comprensión del conocimiento estructurado de los LLM

Created by
  • Haebom

Autor

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

Describir

Este artículo propone SKA-Bench, un novedoso punto de referencia para evaluar la capacidad de comprensión del conocimiento estructurado (CE) de los modelos lingüísticos a gran escala (LLM). SKA-Bench incluye cuatro tipos de CE: grafos de conocimiento (GC), tablas, GC+texto y tablas+texto, y consta de preguntas, respuestas, unidades de conocimiento positivas y unidades de conocimiento negativas. Para evaluar con precisión la capacidad de comprensión del CE de los LLM, evaluamos cuatro aspectos: robustez al ruido, sensibilidad al orden, capacidad de integración de la información y capacidad de rechazo de la información negativa. Experimentos con ocho LLM representativos revelan que los LLM existentes aún presentan dificultades para comprender el CE, y su rendimiento se ve afectado por factores como la cantidad de ruido, el orden de las unidades de conocimiento y las alucinaciones. El conjunto de datos y el código están disponibles en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos SKA-Bench, un nuevo benchmark que evalúa de forma exhaustiva y rigurosa la capacidad del LLM para comprender el conocimiento estructurado.
Descubrimos las limitaciones de la capacidad actual de los LLM para comprender el conocimiento estructurado en varios aspectos (ruido, orden, integración de información y rechazo de información negativa).
Sugerimos direcciones de investigación para mejorar el desempeño del LLM.
Apoya la investigación de seguimiento a través de conjuntos de datos y códigos disponibles públicamente.
Limitations:
Los tipos de conocimiento estructurado cubiertos por SKA-Bench pueden ser limitados.
Hay margen de mejora en las métricas y la metodología de evaluación.
Los tipos de LLM utilizados en el experimento pueden ser más diversos.
👍