# DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

### 저자

Dingwei Zhu, Zhiheng Xi, Shihan Dou, Yuhui Wang, Sixian Li, Junjie Ye, Honglin Guo, Shichun Liu, Chenhao Huang, Yajie Yang, Junlin Shang, Senjie Jin, Ming Zhang, Jiazheng Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui

### 💡 개요

본 논문은 LLM(대규모 언어 모델)의 강화학습 기반 후처리 과정에서 발생하는 불안정한 학습 및 일반화 성능 저하 문제를 해결하기 위해 DVPO(Distributional Value Modeling with Risk-aware Policy Optimization) 프레임워크를 제안합니다. DVPO는 조건부 위험 이론과 분포 기반 가치 모델링을 결합하여 견고성과 일반화 성능 간의 균형을 맞추며, 토큰 수준의 가치 분포 학습과 비대칭 위험 정규화를 통해 꼬리 부분의 불안정성을 줄이고 탐색적 다양성을 보존합니다.

### 🔑 시사점 및 한계

- 실제 환경에서 발생하는 노이즈가 많거나 불완전한 감독 신호 하에서도 LLM의 견고하고 일반화 성능이 뛰어난 후처리가 가능함을 보여줍니다.

- 노이즈가 많은 감독 환경에서 PPO, GRPO 등 기존 방법론 대비 우수한 성능을 입증하여 LLM의 실제 적용 가능성을 높입니다.

- DVPO의 분포 학습 및 위험 정규화 메커니즘이 다양한 LLM 후처리 작업에서 효과적임을 실험적으로 검증하였습니다.

- DVPO의 분포 학습 및 위험 정규화 메커니즘이 다양한 LLM 후처리 작업에서 효과적임을 실험적으로 검증하였습니다. (앞선 내용과 중복되어 한계점이나 향후 과제로 수정하는 것이 적절할 것 같습니다. 예를 들어, "DVPO의 효과를 더욱 광범위한 LLM 작업 및 데이터셋에 적용하고, 계산 효율성을 개선하는 연구가 필요합니다." 와 같이 수정할 수 있습니다.)

[PDF 보기](https://arxiv.org/pdf/2512.03847)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).