Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs

Created by
  • Haebom

作者

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

概要

この論文は、大規模言語モデル(LLM)の構造化された知識(SK)理解能力を評価するための新しいベンチマークであるSKA-Benchを提案します。 SKA-Benchには、知識グラフ(KG)、表、KG +テキスト、表+テキストなど4種類のSKがあり、質問、回答、肯定的な知識単位、否定的な知識単位で構成されています。 LLMのSK理解能力を細かく評価するために、4つの側面を評価します。 8つの代表的なLLMを対象に実験した結果、既存のLLMは依然としてSKの理解に苦労しており、性能はノイズの量、知識単位の順序、幻覚現象などの要因に影響を受けることを明らかにしました。データセットとコードはFitHubで公開されています。

Takeaways、Limitations

Takeaways:
LLMの構造化された知識理解能力を包括的かつ厳密に評価するための新しいベンチマークであるSKA-Benchを紹介しました。
既存のLLMの構造化された知識理解能力の限界は、さまざまな点で明らかになりました。 (ノイズ、順序、情報統合、否定情報の拒否)
LLMのパフォーマンスを向上させるための研究方向を提示します。
公開されたデータセットとコードによる後続の研究をサポートします。
Limitations:
SKA-Benchが扱う構造化された知識の種類は限られているかもしれません。
評価指標と方法論の改善の余地がある。
実験に使用されたLLMの種類はより多様です。
👍