expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling

작성자

Haebom

카테고리

Empty

저자

Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

💡 개요

본 논문은 LLM 수학적 추론에서 사용되는 Group Relative Policy Optimization(GRPO)의 두 가지 비효율성, 즉 고정된 KL 페널티 계수로 인한 정책 탐색의 제약과 균일한 문제 샘플링으로 인한 비효율적인 학습 신호 활용을 지적합니다. 이를 해결하기 위해, 본 연구는 정확도에 따라 KL 규제 강도를 동적으로 조절하는 AKL 모듈과 중간 난이도의 문제에 집중하는 GCS 모듈을 제안하는 Exploration-Prioritized Policy Optimization(EXPO)을 제시합니다. 제안된 EXPO는 실험 결과, 기존 GRPO 대비 상당한 성능 향상을 보여줍니다.

🔑 시사점 및 한계

•

동적 KL 규제: 모델 성능에 따라 KL 규제 강도를 조절하여 탐색을 효과적으로 유도할 수 있습니다.

•

정보 학습 중심 샘플링: 중간 난이도 문제에 집중함으로써 모델의 학습 효율성을 극대화할 수 있습니다.

•

탐색과 안정성의 균형: EXPO는 제한된 추론 비용 안에서 모델의 탐색 범위를 넓히는 데 효과적이며, 이는 특히 pass@32와 같은 메트릭에서 두드러집니다.

•

새로운 LLM 수학적 추론 방법론 제시: GRPO의 한계를 극복하고 LLM 수학적 추론 성능을 향상시킬 수 있는 새로운 방향을 제시합니다.

•

고정된 추론 비용 내에서의 성능 향상: EXPO는 동일한 추론 비용 환경에서 탐색 범위를 넓힘으로써 실질적인 성능 개선을 이끌어냈습니다.

•

한계점: 본 연구에서 제안된 AKL 및 GCS 모듈의 최적화된 파라미터 설정에 대한 추가적인 연구가 필요할 수 있습니다. 또한, 다양한 LLM 아키텍처 및 수학적 추론 데이터셋에 대한 일반화 성능 검증이 더 필요할 수 있습니다.

PDF 보기

Made with Slashpage