Length Controlled Policy Optimization (LCPO) は、ユーザーが指定した長さ制約に準拠しながら精度を最適化する簡単な強化学習方法です。 LCPOを使用して推論言語モデルL1を学習しました。 L1 は、プロンプトで提供される長さ制約を満たす出力を生成します。 L1の長さ制御により、さまざまな作業で計算コストと精度をスムーズにトレードオフでき、従来のS1方法よりも優れた性能を発揮します。さらに、LCPOで訓練されたモデルでは、予期しない短い連鎖能力を発見しました。特に、LCPOを使用してShorts Reasoning Models(SRM)を開発しました。これは、全長推論モデルと同様の推論パターンを示していますが、非推論モデルと同様のCoT長を生成できます。 1.5B L1モデルは、同じ推論長でGPT-4oを上回る大幅な性能向上を示した。