Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Evaluating Evaluation Metrics - The Mirage of Hallucination Detection

Created by
  • Haebom

作者

Atharva Kulkarni, Yuan Zhang, Joel Ruben Antony Moniz, Xiou Ge, Bo-Hsiang Tseng, Dhivya Piraviperumal, Swabha Swayamdipta, Hong Yu

Hallucination Detection Metrics: A Large-Scale Empirical Evaluation

概要

本論文は言語モデルのサイケデリック現象の測定に関する研究を進めた。現在のサイケデリックセンシング指標は信頼性と一般化の面で限界があることを指摘し、4つのデータセット、37の異なる言語モデル、5つのデコード方式を使用して6種類のサイケデリックセンシング指標を大規模に評価しました。研究の結果、既存の指標は人間の判断と一致せず、問題に対する近視眼的なアプローチを示し、モデルサイズの増加に伴う一貫性のないパフォーマンス向上を示しました。肯定的な側面として、GPT-4のようなLLMベースの評価は最良の結果を示した。

Takeaways、Limitations

現在、幻覚検知指標は人間の判断と一致しないことが多い。
サイケデリックな検出指標は、問題に対する近視眼的アプローチを示しています。
モデルサイズが増加するにつれて、サイケデリック検出性能は一貫して向上しません。
LLMベースの評価(特にGPT-4)は優れた性能を示した。
モードナビゲーションデコード方式は幻覚を減らすのに効果的です。
より強固なサイケデリックセンシング指標の開発とサイケデリック緩和戦略の必要性を強調
👍