Optimal Transport for LLM Reward Modeling from Noisy Preference

작성자

Haebom

카테고리

Empty

저자

Licheng Pan, Haochen Yang, Haoxuan Li, Yunsheng Lu, Yongqi Tong, Yinuo Wang, Shijian Wang, Zhixuan Chu, Lei Shen, Yuan Lu, Hao Wang

💡 개요

본 논문은 강화학습에서 인간 피드백 기반 학습(RLHF)의 핵심 요소인 보상 모델이 실제 데이터의 노이즈로 인해 발생하는 문제를 해결하기 위해 최적 수송 이론에 기반한 SelectiveRM 프레임워크를 제안합니다. 제안된 방법은 Joint Consistency Discrepancy와 Mass Relaxation 메커니즘을 통해 모델 예측 분포를 선호도 데이터에 맞추고, 노이즈가 섞인 샘플을 효과적으로 배제하여 깨끗한 데이터에 대한 위험을 낮춥니다. 이를 통해 다양한 벤치마크에서 기존 최신 기법 대비 뛰어난 성능을 입증했습니다.

🔑 시사점 및 한계

•

실제 인간 선호도 데이터에 존재하는 필연적인 노이즈를 효과적으로 처리하여 보상 모델의 성능을 향상시킬 수 있습니다.

•

최적 수송 이론을 활용하여 기존 접근 방식의 한계를 극복하고, 노이즈 샘플을 스스로 식별하여 제외하는 새로운 방식을 제시합니다.

•

대규모 언어 모델(LLM)의 학습 효율성과 신뢰성을 높이는 데 기여할 수 있습니다.

•

제안된 방법의 계산 복잡성이나 특정 유형의 노이즈에 대한 민감도 등은 향후 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage