DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

작성자

Haebom

카테고리

Empty

저자

Hongbo Jin, Rongpeng Zhu, Zhongjing Du, Xu Jiang, Jingqi Tian, Qiaoman Zhang, Jiayu Ding

💡 개요

본 논문은 강화학습 기반 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상을 위해 기존의 순차적 수준 크레딧 할당 방식이 가진 한계를 극복하는 새로운 방법론인 Distribution Guided Policy Optimization (DGPO)을 제안합니다. DGPO는 KL 발산 페널티 대신 Hellinger 거리를 사용하여 토큰 수준 탐색을 안전하게 유도하고, 엔트로피 게이팅 메커니즘을 통해 불확실성을 고려하여 실제 추론 단계를 효과적으로 식별합니다. 이를 통해 계산 비용 증가 없이 세밀한 크레딧 재분배를 달성하며, 추가적인 가치 네트워크 없이도 최첨단 성능을 보여줍니다.

🔑 시사점 및 한계

•

LLM의 장기 추론 과정에서 중요한 단계를 효과적으로 식별하고 보상하여 추론 품질을 크게 향상시킬 수 있습니다.

•

기존의 KL 발산 페널티로 인한 불안정성과 보수적인 탐색 문제를 해결하여 더욱 다양하고 효과적인 추론 경로를 발견할 가능성을 높입니다.

•

본 연구는 비평가(critic-free) 강화학습 프레임워크에서 최첨단 성능을 달성했지만, 실제 적용 시 다양한 LLM 아키텍처 및 복잡한 추론 태스크에 대한 추가적인 일반화 성능 검증이 필요합니다.

PDF 보기

Made with Slashpage