Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

Created by
  • Haebom

저자

Pranjal Aggarwal, Sean Welleck

개요

Length Controlled Policy Optimization (LCPO)는 사용자가 지정한 길이 제약 조건을 준수하면서 정확도를 최적화하는 간단한 강화 학습 방법입니다. LCPO를 사용하여 추론 언어 모델 L1을 학습시켰습니다. L1은 프롬프트에 제공된 길이 제약 조건을 충족하는 출력을 생성합니다. L1의 길이 제어를 통해 다양한 작업에서 계산 비용과 정확도를 부드럽게 절충할 수 있으며, 기존의 S1 방법보다 우수한 성능을 보입니다. 또한, LCPO로 훈련된 모델에서 예상치 못한 짧은 chain-of-thought 능력을 발견했습니다. 특히, LCPO를 사용하여 Short Reasoning Models (SRMs)을 개발했으며, 이 모델은 전체 길이 추론 모델과 유사한 추론 패턴을 보이지만, 비추론 모델과 유사한 CoT 길이를 생성할 수 있습니다. 1.5B L1 모델은 동일한 추론 길이에서 GPT-4o를 능가하는 상당한 성능 향상을 보였습니다.

시사점, 한계점

시사점:
LCPO는 추론 모델의 추론 길이 제어를 가능하게 합니다.
계산 비용과 정확도 사이의 유연한 절충이 가능합니다.
SRM 개발을 통해 짧은 chain-of-thought로도 높은 성능을 달성할 수 있습니다.
L1 모델은 기존의 S1 방법보다 우수한 성능을 보입니다.
동일한 추론 길이에서 GPT-4o를 능가하는 성능을 달성했습니다.
한계점:
논문에서 구체적인 한계점은 언급되지 않았습니다.
👍