Difficulty-Estimated Policy Optimization

Created by

Haebom

저자

Yu Zhao, Fan Jiang, Tianle Liu, Bo Zeng, Yu Liu, Longyue Wang, Weihua Luo

💡 개요

본 논문은 대규모 추론 모델(LRM) 훈련 시 발생하는 그래디언트 신호 감쇠 문제를 해결하기 위해 Difficulty-Estimated Policy Optimization (DEPO)이라는 새로운 프레임워크를 제안합니다. DEPO는 온라인 난이도 추정기를 활용하여 학습 잠재력이 높은 샘플에 계산 자원을 집중함으로써 롤아웃 비용을 최대 2배까지 줄이면서도 모델 성능을 유지합니다. 이를 통해 고성능 추론 모델 훈련의 계산 부담을 낮추고 지속 가능한 추론 확장 경로를 제시합니다.

🔑 시사점 및 한계

•

훈련 데이터의 학습 잠재력을 동적으로 평가하고 필터링함으로써 계산 효율성을 크게 향상시킬 수 있습니다.

•

추론 모델 훈련의 계산 비용을 절감하여 고성능 모델 개발의 접근성을 높입니다.

•

온라인 난이도 추정기의 정확도와 일반화 성능이 DEPO의 전체적인 효과에 영향을 미칠 수 있습니다.

PDF 보기

Made with Slashpage