Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

Created by
  • Haebom

作者

Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

概要

この論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しい強化学習ベースの微調整方法であるContrastive learning with annotated CoT-based Reinforced Fine-Tuning(\ TheName {})を提案します。既存のRLベースの方法のLimitationsである不安定な推論経路サンプリングと注釈付き事故プロセス(CoT)の無視、および既存のSFTアプローチの過度のCoT強調問題を解決するために、各CoTの表現を学習し、新しい対照信号を設計して微調整プロセスを案内します。 \TheName{}は注釈付きCoTを完全に活用し、非マップ学習信号を統合して微調整プロセスを安定させます。実験の結果、3 つの基準方法、2 つの基本モデル、2 つのデータセットを使用した実験により、\TheName{} の堅牢性、パフォーマンス (最大 10.15% 向上)、効率性 (最大 30.62% 向上) という点で大きなメリットがあります。

Takeaways、Limitations

Takeaways:
LLMの推論性能を向上させるための効果的な新しい方法の提示
既存のRLベースの方法のLimitationsである不安定性とモデル崩壊のトラブルシューティング
注釈付きCoTを効果的に活用し、パフォーマンスの向上と効率の向上。
対照学習による安定的かつ効率的な微調整プロセスの実施
Limitations:
提案された方法の一般化性能に関するさらなる研究の必要性
さまざまなLLMとデータセットの追加実験が必要です。
\TheName{}のパフォーマンス向上が特定のデータセットまたはモデルに限定される可能性があります。
アルゴリズムの複雑さによる計算コストの増加の可能性
👍