Length Controlled Policy Optimization (LCPO)는 사용자가 지정한 길이 제약 조건을 준수하면서 정확도를 최적화하는 간단한 강화 학습 방법입니다. LCPO를 사용하여 추론 언어 모델 L1을 학습시켰습니다. L1은 프롬프트에 제공된 길이 제약 조건을 충족하는 출력을 생성합니다. L1의 길이 제어를 통해 다양한 작업에서 계산 비용과 정확도를 부드럽게 절충할 수 있으며, 기존의 S1 방법보다 우수한 성능을 보입니다. 또한, LCPO로 훈련된 모델에서 예상치 못한 짧은 chain-of-thought 능력을 발견했습니다. 특히, LCPO를 사용하여 Short Reasoning Models (SRMs)을 개발했으며, 이 모델은 전체 길이 추론 모델과 유사한 추론 패턴을 보이지만, 비추론 모델과 유사한 CoT 길이를 생성할 수 있습니다. 1.5B L1 모델은 동일한 추론 길이에서 GPT-4o를 능가하는 상당한 성능 향상을 보였습니다.