SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs

작성자

Haebom

카테고리

Empty

저자

Chanuk Lee, Minki Kang, Sung Ju Hwang

💡 개요

본 논문은 강화학습 기반 검증 가능한 보상(RLVR)이 LLM의 추론 능력 향상에 기여하지만, 특히 pass@k에서의 성능 개선이 제한적이라는 기존 연구의 한계를 지적합니다. 저자들은 이러한 한계가 역 KL 발산 정규화가 정책을 참조 분포에 고정시켜 새로운 추론 방식의 출현을 억제하는 구조적 제약에서 비롯된다고 주장합니다. 이를 해결하기 위해, SAGE 프레임워크는 안내 함수 q(x,y)를 통해 역 KL 앵커 분포를 재구성하여 경험적 지원 확장을 제어함으로써, 어려운 수학적 추론 벤치마크에서 pass@1과 pass@k 모두에서 일관된 성능 향상을 달성합니다.

🔑 시사점 및 한계

•

RLVR의 pass@k 성능 개선 한계는 역 KL 정규화의 구조적 제약에서 기인하며, 단순히 KL 항을 제거하거나 변경하는 것만으로는 해결되지 않습니다.

•

SAGE 프레임워크는 앵커 분포를 동적으로 재구성함으로써 LLM의 탐색 범위를 효과적으로 확장하고, 추론 능력의 질적 향상을 유도할 수 있습니다.

•

본 연구는 LLM의 탐색 효율성과 결과 커버리지 사이의 균형을 맞추는 새로운 접근 방식을 제시하며, 수학적 추론 분야에서 RLVR의 적용 가능성을 크게 확장합니다.

•

SAGE의 안내 함수 q(x,y) 설계에 대한 추가적인 탐색과 다양한 추론 작업에 대한 일반화 성능 검증이 향후 연구 과제로 남아있습니다.

PDF 보기

Made with Slashpage