Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning

Created by
  • Haebom

作者

Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

概要

本論文は、大規模言語モデル(LLM)の信頼性を高めるために、文脈に忠実な応答を生成する新しいフレームワークCANOEを提案する。 CANOEは、人間のコメントなしでさまざまな短期クエリ応答(QA)データを合成して、高品質で検証可能なトレーニングデータを生成します。さらに、合成短期QAデータから導出された3つのルールベースの補償を含むDual-GRPOというルールベースの強化学習方法を提案し、短期および長期応答の生成を同時に最適化します。 Dual-GRPOは、補償モデルトレーニングのための手動ラベル付けと短期生成の過最適化問題を解決します。実験の結果、CANOEは11の異なる作業でLLMの忠実度を大幅に向上させ、GPT-4oやOpenAI o1などの最先端のLLMを上回る性能を示しました。

Takeaways、Limitations

Takeaways:
人間の注釈なしでLLMの忠実度を向上させる効果的なフレームワーク(CANOE)の提示。
ルールベースの強化学習による短期および長期応答の生成を効率的に最適化
最先端LLMを凌駕する忠実度向上性能を立証。
様々な下流の作業における汎用性を示す。
Limitations:
合成データの品質への依存性合成データの多様性と品質はCANOE性能に影響を与える可能性があります。
ルールベースの報酬の一般化の可能性特定のタスクに最適化されたルールが他のタスクに適用されると、パフォーマンスが低下する可能性があります。
提案された方法の拡張性。さらに大規模なデータや複雑な作業に対する適用性検証が必要。
👍