Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs

Created by
  • Haebom

作者

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

概要

この論文は、大規模言語モデル(LLM)の構造化された知識(SK)理解能力を評価するための新しいベンチマークであるSKA-Benchを提案します。 SKA-Benchには、知識グラフ(KG)、表、KG+テキスト、表+テキストなど4つのタイプのSKが含まれています。 LLMのSK理解能力を細かく評価するために、ノイズに対する堅牢性、順序に対する無関心性、情報統合能力、否定的な情報拒否能力など、4つの基本的な能力テストベッドを拡張して使用します。 8つの代表的なLLMを対象に実験した結果、既存のLLMは構造化された知識の理解に依然としてかなりの困難を抱えており、性能はノイズの量、知識単位の順序、幻覚現象などの要因に影響を受けることを示しています。データセットとコードはFitHubで公開されています。

Takeaways、Limitations

Takeaways:
LLMの構造化された知識を理解するための包括的で厳格な評価ベンチマークを提供します。
さまざまな種類の構造化された知識を包括的に扱うことで、LLMの弱点を正確に診断できます。
LLMの構造化された知識理解能力の詳細な分析を可能にします。
既存のLLMの構造化された知識理解能力の限界を明確に提示します。
Limitations:
現在、ベンチマークに含まれているLLMの種類は限られている可能性があります。
SKA-Benchの性能評価指標と測定方法のさらなる研究が必要になるかもしれません。
特定の種類の構造化された知識に偏りがある可能性があります。
👍