Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

Created by
  • Haebom

作者

Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

概要

本論文では、大規模言語モデル(LLM)の推論能力を向上させるために、注釈付き思考過程(CoT)に基づく対照学習強化微調整アプローチであるCARFTを提案します。従来の強化学習ベースの微調整方法は、不安定な推論経路サンプリングによってモデルの崩壊および性能低下の問題を引き起こし、一方、従来の指導学習ベースの微調整方法は、注釈付きCoTに過度に依存して潜在的なCoT活用を阻害する限界を有する。 CARFTは各CoTの表現を学習し、それに基づいて設計された新しい対照信号を介して微調整プロセスを案内することによってこれらの問題を解決します。非指導学習信号をさらに統合して微調整プロセスの安定性を確保し、注釈付きCoTを十分に活用します。実験の結果、CARFTは従来の方法と比較して、堅牢性、性能(最大10.15%向上)、効率性(最大30.62%向上)という点でかなりの利点を示しました。

Takeaways、Limitations

Takeaways:
注釈付きCoTを効果的に活用してLLMの推論性能を改善する新しい方法を提示
対照学習による強化学習ベースの微調整の安定性を確保し,モデル崩壊問題を解決
従来方式と比較した性能と効率性の向上を実験的に検証
LLMの推論能力の向上に関する新しい研究方向の提示
Limitations:
提案された方法の一般化性能に関するさらなる研究の必要性
さまざまなLLMとデータセットのスケーラビリティ検証が必要
特定のデータセットとモデルに限定された実験結果の一般化の可能性に関するさらなる研究が必要
👍