Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Created by
  • Haebom

저자

Penghui Qi, Zichen Liu, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 테스트 시간 계산을 확장하는 새로운 프레임워크인 AnytimeReasoner를 제시합니다. 기존의 강화 학습(RL) 기반 접근 방식은 추론 과정의 끝에서 얻은 검증 가능한 보상을 극대화하지만, 고정된 토큰 예산 하에서 최종 성능만을 최적화하여 훈련 및 배포의 효율성을 저해합니다. AnytimeReasoner는 다양한 토큰 예산 제약 조건 하에서 토큰 효율성과 추론의 유연성을 향상시키는 것을 목표로, 사전 분포에서 샘플링된 토큰 예산에 맞춰 추론 과정을 자르고 각 잘린 추론에 대해 최적의 답변을 요약하여 검증합니다. 이를 통해 추론 과정에 검증 가능한 밀집 보상을 도입하여 RL 최적화에서 더 효과적인 크레딧 할당을 가능하게 합니다. 추론 및 요약 정책을 분리된 방식으로 최적화하여 누적 보상을 극대화하고, Budget Relative Policy Optimization (BRPO)라는 새로운 분산 감소 기법을 도입하여 추론 정책을 강화할 때 학습 과정의 강건성과 효율성을 높입니다. 수학적 추론 작업에 대한 실험 결과는 제안된 방법이 다양한 사전 분포 하에서 모든 추론 예산에 걸쳐 GRPO를 일관되게 능가하며, 훈련 및 토큰 효율성을 모두 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
다양한 토큰 예산 제약 조건 하에서 LLM의 추론 능력과 효율성을 향상시키는 새로운 프레임워크 AnytimeReasoner 제시.
기존 RL 기반 방법의 한계인 고정된 토큰 예산 문제를 해결하여 훈련 및 배포 효율성 증대.
추론 과정에 검증 가능한 밀집 보상을 도입하여 RL 최적화의 효율성 향상.
BRPO 기법을 통해 강화 학습 과정의 강건성과 효율성 개선.
수학적 추론 작업에서 기존 방법보다 우수한 성능을 입증.
한계점:
제시된 방법의 성능이 수학적 추론 작업에 국한되어 다른 유형의 추론 작업에 대한 일반화 가능성은 추가 연구가 필요함.
BRPO 기법의 효과 및 일반화 가능성에 대한 더 자세한 분석이 필요함.
사전 분포의 선택이 성능에 미치는 영향에 대한 추가적인 연구가 필요함.
실제 대규모 LLM에 적용 시 발생할 수 있는 계산 비용 및 확장성 문제에 대한 고려가 필요함.
👍