본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)을 사용하여 대형 언어 모델(LLM)의 추론 능력을 향상시키는 효율적인 강화 학습 프레임워크를 제안합니다. 특히 정확성 중심의 학습 방식에서 발생하는 엔트로피 붕괴 현상을 해결하는 데 초점을 맞추었습니다. 이를 위해 의미론적 및 토큰 수준의 엔트로피 신호를 활용하여 추론 능력을 향상시키는 방법을 제시합니다. 구체적으로, 데이터 측면에서는 의미론적 엔트로피 기반의 커리큘럼 학습을 도입하여 쉬운 문제에서 어려운 문제로 점진적인 최적화를 유도하고, 알고리즘 설계 측면에서는 낮은 엔트로피 토큰에 KL 정규화를 적용하여 정책 탐색을 강화하고, 높은 공분산 부분을 더 강력하게 제어합니다. 이러한 데이터 구성과 알고리즘 설계를 통해 엔트로피 붕괴를 효과적으로 완화하고 LLM의 추론 능력을 향상시킵니다. 6개의 벤치마크와 3가지 파라미터 규모의 기반 모델을 사용한 실험 결과, 제안된 방법이 다른 엔트로피 기반 접근 방식보다 추론 능력 향상에 효과적임을 입증했습니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 능력 향상을 위해 엔트로피 붕괴 문제를 해결하는 새로운 강화 학습 프레임워크 제시