BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
Created by
Haebom
저자
Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li
개요
본 논문은 제한된 자원 및 실시간 환경에서도 효율적인 추론이 가능하도록 LLM(Large Language Model)의 추론 과정 길이를 정밀하게 제어하는 새로운 프레임워크인 BudgetThinker를 제안합니다. BudgetThinker는 추론 중 특수 제어 토큰을 주기적으로 삽입하여 모델에 남은 토큰 예산을 지속적으로 알려주는 방식을 사용합니다. 이는 감독 미세조정(SFT)과 길이를 고려한 보상 함수를 사용하는 커리큘럼 기반 강화학습(RL)의 두 단계로 구성된 훈련 파이프라인과 결합됩니다. 실험 결과, BudgetThinker는 다양한 추론 예산에서 어려운 수학적 벤치마크에 대한 성능을 유지하는 데 있어 기존 방식보다 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 과정 길이를 효과적으로 제어하여, 자원 제약이 있는 환경에서도 고성능 추론이 가능하게 함.
◦
실시간 응용 분야에 LLM 적용 가능성을 높임.
◦
SFT와 RL 기반의 훈련 파이프라인을 통해 정확성과 예산 준수를 동시에 최적화.
◦
다양한 추론 예산에서 일관된 성능을 보임.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함. (특정 수학적 벤치마크에 대한 성능만 제시되었으므로 다른 유형의 문제에 대한 성능은 추가 검증 필요)