본 논문은 대규모 추론 모델(LRMs)의 과도한 추론 문제를 해결하기 위해 적응적 인지 정책 최적화(ACPO)라는 강화 학습 프레임워크를 제안합니다. ACPO는 인지 과학의 이중 과정 이론에서 영감을 받아, 시스템 인식 추론 토큰을 도입하여 모델의 인지 과정을 투명하게 만들고, 온라인 난이도 추정 및 토큰 길이 예산을 통합하여 적응적 시스템 전환 및 추론을 유도합니다. 두 단계 학습 전략(지도 학습 미세 조정 및 ACPO 적용)을 통해 복잡한 추론 과제에서 효율적인 혼합 추론을 달성하고 불필요한 추론을 줄이며 과제의 복잡성에 따라 인지 자원을 적응적으로 조절합니다.
시사점, 한계점
•
시사점:
◦
대규모 추론 모델의 과도한 추론 문제를 효과적으로 해결하는 새로운 강화 학습 프레임워크(ACPO) 제시