Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning to Reason for Hallucination Span Detection

Created by
  • Haebom

作者

Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli

LLMのサイケデリック現象検出のための強化学習ベースのフレームワークRL4HS

概要

大規模言語モデル(LLM)はしばしば信頼性を低下させる根拠のないコンテンツである幻覚現象を生成します。ほとんどの既存の研究はサイケデリックセンシングをバイナリ分類問題として扱っていますが、実際のアプリケーションではサイケデリックな範囲を識別する必要があるため、多段階の意思決定プロセスが必要です。これに対する答えを見つけるために、Chain-of-Thought(CoT)推論を使用して事前訓練されたモデルを評価し、複数回のサンプリング時にCoT推論が少なくとも1つの正解を生成できることを確認しました。これに基づいて、範囲レベルの補償関数を通じて推論を奨励する強化学習フレームワークであるRL4HSを提案する。 RL4HSはGroup Relative Policy Optimizationに基づいており、補償の不均衡問題を軽減するためにClass-Aware Policy Optimizationを導入しています。 RAGTruthベンチマーク(要約、質問応答、データからテキストへの変換)実験の結果、RL4HSは事前訓練された推論モデルと地図学習ベースの微調整よりも優れた性能を示し、幻覚範囲を検出するために範囲レベルの補償を使用した強化学習の必要性を実証しました。

Takeaways、Limitations

Takeaways:
LLMサイケデリック現象検出のための効果的な強化学習フレームワーク(RL4HS)の提示。
CoT推論の可能性を確認し、それに基づいた強化学習の必要性を強調。
範囲レベルの補償関数を利用したサイケデリックレンジ検出性能の向上
Group Relative Policy OptimizationとClass-Aware Policy Optimizationによる学習安定性の確保
RAGTruthベンチマークにおける既存モデルに比べて優れた性能を証明。
Limitations:
特定のベンチマークデータセット(RAGTruth)のパフォーマンスのみを評価します。
RL4HSの一般化の可能性と他のドメインへの適用性のさらなる研究が必要です。
モデルの複雑さと計算コストの分析不足
👍