Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Created by
  • Haebom
Category
Empty

저자

Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

AnytimeReasoner: Anytime Reasoning for Large Language Models

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위해 테스트 시 컴퓨팅 자원을 확장하는 데 초점을 맞춘 연구입니다. 기존 강화 학습 기반 방법론의 한계점인 고정된 토큰 예산 하에서의 최종 성능 최적화를 극복하고자, Anytime Reasoning 성능을 최적화하는 새로운 프레임워크인 AnytimeReasoner를 제안합니다. 이 방법은 추론 과정을 여러 토큰 예산으로 잘라내고, 각 단축된 추론에 대한 요약을 생성하여 검증 가능한 밀집 보상을 도입함으로써 토큰 효율성과 다양한 토큰 예산 제약 조건 하에서의 유연성을 개선합니다. 특히, 사고 정책과 요약 정책을 분리하여 최적화하고, Budget Relative Policy Optimization (BRPO)이라는 새로운 분산 감소 기법을 도입하여 학습의 견고함과 효율성을 높였습니다. 수학적 추론 과제에 대한 실험 결과는 AnytimeReasoner가 다양한 사전 분포 하에서 모든 사고 예산에 걸쳐 GRPO를 능가하며, 훈련 및 토큰 효율성을 모두 향상시킴을 보여줍니다.

시사점, 한계점

시사점:
Anytime Reasoning 개념을 도입하여 다양한 토큰 예산에 대응하는 LLM의 유연성을 향상시킴.
검증 가능한 밀집 보상을 통해 강화 학습의 credit assignment 문제를 효과적으로 해결.
BRPO 기법을 통해 학습의 효율성과 견고함을 개선.
수학적 추론 과제에서 GRPO를 능가하는 우수한 성능을 입증.
한계점:
구체적인 성능 향상 정도나 일반화 가능성에 대한 추가 분석 필요.
다양한 추론 유형 및 복잡한 문제에 대한 확장성 검증 필요.
다른 최신 기법과의 비교 분석 부족.
👍