VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision
Created by
Haebom
저자
Dingwei Zhu, Shihan Dou, Zhiheng Xi, Senjie Jin, Guoqiang Zhang, Jiazheng Zhang, Junjie Ye, Mingxu Chai, Enyu Zhou, Ming Zhang, Caishuang Huang, Yunke Zhang, Yuran Wang, Tao Gui
개요
본 논문은 인간 피드백 강화 학습(RLHF)에서 흔히 발생하는 잡음이 많은 보상 감독 문제를 해결하기 위해, 값 모델(value model) 중심의 강건한 PPO 훈련 프레임워크인 VRPO를 제안합니다. 실제 환경의 잡음은 정책의 안정성과 일반화 성능을 저해하며, 특히 이점 추정 과정에서 중요 단어에 대한 주의력을 잃게 할 수 있습니다. VRPO는 기존의 잡음 제거 또는 데이터 필터링 방식과 달리 값 모델의 중요성에 주목하여, 언어 모델의 엔트로피와 퍼플렉서티를 활용한 보조 손실 함수와 변이 정보 병목 현상(variational information bottleneck)을 통해 값 모델이 잡음을 걸러내고 중요 단어를 포착하여 잡음을 조절하는 역할을 수행하도록 합니다. 수학 추론, 과학 QA, 다중 회전 대화 등 다양한 작업에서 규칙 기반 및 모델 기반 잡음 보상 환경에서 VRPO가 PPO 및 GRPO 기준 모델보다 우수한 성능을 보임을 실험적으로 증명합니다.
시사점, 한계점
•
시사점: RLHF에서 값 모델의 중요성을 강조하고, 잡음이 많은 실제 환경에서 강건한 정책 최적화를 위한 원칙적이고 실용적인 방법을 제시합니다. VRPO는 잡음이 많은 보상 감독 하에서 안정적이고 일반화 성능이 우수한 정책 학습을 가능하게 합니다. 값 모델의 역할을 능동적인 잡음 조절자로 확장함으로써 기존 RLHF의 한계를 극복합니다.
•
한계점: 제안된 VRPO의 성능 향상이 특정 유형의 잡음과 작업에 국한될 가능성이 있습니다. 다양한 잡음 유형 및 작업에 대한 추가적인 실험이 필요합니다. 값 모델의 복잡성 증가로 인한 계산 비용 증가 가능성도 고려해야 합니다. 또한, 언어 모델의 엔트로피와 퍼플렉서티를 활용하는 부분에서 언어 모델의 성능에 의존적일 수 있습니다.