본 논문은 계산 비효율적인 대규모 추론 모델의 문제점을 해결하기 위해 계층적 예산 정책 최적화(HBPO)라는 강화 학습 프레임워크를 제시합니다. HBPO는 문제 복잡도에 따라 추론 깊이를 학습하여 토큰 사용량을 줄이고 정확도를 높이는 것을 목표로 합니다. 기존 방법과 달리 외부 제약이나 이산 모드 선택에 의존하지 않고, 모델이 문제 복잡도에 따라 추론 깊이를 자동으로 조정하는 적응적 행동을 보입니다. 이는 다양한 토큰 예산을 가진 하위 그룹으로 샘플을 분할하고, 문제 복잡도에 맞는 보상 메커니즘을 통해 효율적인 자원 할당과 성능 저하 방지를 동시에 달성합니다. 실험 결과, 네 가지 추론 벤치마크에서 평균 토큰 사용량을 최대 60.6% 감소시키면서 정확도를 3.14% 향상시켰습니다.