Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

Created by
  • Haebom

作者

Pranjal Aggarwal, Sean Welleck

概要

Length Controlled Policy Optimization (LCPO) は、ユーザーが指定した長さ制約に準拠しながら精度を最適化する簡単な強化学習方法です。 LCPOを使用して推論言語モデルL1を学習しました。 L1 は、プロンプトで提供される長さ制約を満たす出力を生成します。 L1の長さ制御により、さまざまな作業で計算コストと精度をスムーズにトレードオフでき、従来のS1方法よりも優れた性能を発揮します。さらに、LCPOで訓練されたモデルでは、予期しない短い連鎖能力を発見しました。特に、LCPOを使用してShorts Reasoning Models(SRM)を開発しました。これは、全長推論モデルと同様の推論パターンを示していますが、非推論モデルと同様のCoT長を生成できます。 1.5B L1モデルは、同じ推論長でGPT-4oを上回る大幅な性能向上を示した。

Takeaways、Limitations

Takeaways:
LCPOは推論モデルの推論長制御を可能にします。
計算コストと精度の間の柔軟なトレードオフが可能です。
SRMの開発により、短いチェーンで高性能を実現できます。
L1モデルは従来のS1法よりも優れた性能を示します。
同じ推論長でGPT-4oを上回る性能を達成した。
Limitations:
論文で具体的なLimitationsは言及されていない。
👍