Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

From Confidence to Collapse in LLM Factual Robustness

Created by
  • Haebom

作者

Alina Fastowski, Bardh Prenkaj, Gjergji Kasneci

概要

本稿では、大規模言語モデル(LLM)の現実的な知識の堅牢性を評価する新しい指標である事実的堅牢性スコア(FRS)を提案します。従来の評価方法は主にパフォーマンスベースの指標に焦点を当て、プロンプトの変化による外部影響に焦点を当てていますが、この論文では、トークン分布エントロピーと温度スケーリング感度を分析して、生成プロセス自体でリアルな堅牢性を測定する原則的なアプローチを紹介します。 5つのLLMと3つの閉鎖型クエリ応答データセット(SQuAD、TriviaQA、HotpotQA)を使用した実験により、モデルサイズによって実際の堅牢性が大きく異なり(小型モデル0.76、大型モデル0.93)、不確実性が増加するにつれて精度が約60%減少します。これにより、エントロピーと温度スケーリングが現実的な精度に与える影響を分析し、将来的により堅牢な知識の維持と検索機能を備えたモデル開発の基盤を築きます。

Takeaways、Limitations

Takeaways:
LLMの現実的な知識の堅牢性を評価する新しい指標であるFRSを提示します。
生成プロセス自体に焦点を当てた新しい評価方式の提示
モデルサイズとリアルな堅牢性との間の相関関係を明らかにする。
不確実性の増加に伴う精度低下現象を解明。
今後のLLMの知識維持と検索機能の向上に貢献できる基盤づくり。
Limitations:
提示されたFRS指標の一般化の可能性に関するさらなる研究の必要性
さまざまな種類のLLMとデータセットの追加実験が必要です。
FRS指標の改善と補完のためのさらなる研究が必要です。
👍