Chaoyang Zhou, Shunyu Liu, Zengmao Wang, Di Wang, Rong-Cheng Tu, Bo Du, Dacheng Tao
개요
본 논문은 대규모 언어 모델(LLM)의 보상 모델링을 개선하는 방법을 제시합니다. 기존의 보상 모델링은 응답 전체에 대한 점수에 의존하여 보상을 학습하지만, 이는 세밀하지 못한 지도 신호이기 때문에 일반화 성능이 저조합니다. 본 논문에서는 생성 확률을 활용하여 응답 과정 간의 보상 일관성을 확립하는 방법을 제안합니다. 이는 응답 수준의 지도 신호를 과정 전반으로 전파하여 보상 학습을 위한 세밀한 신호를 추가로 제공합니다. 베이지안 프레임워크 하에서 분석을 기반으로, 높은 다음 토큰 생성 확률을 가진 인접 과정이 더 일관된 보상을 유지하도록 하는 과정 내 일관성 정규화를 개발했습니다. 제안된 정규화를 고급 결과 보상 모델에 적용하여 RewardBench에서 성능을 향상시켰으며, 제안된 정규화로 학습된 보상 모델은 DPO 정렬 정책을 개선하고 더 나은 Best-of-N (BON) 추론 시간 검증 결과를 달성함을 보였습니다.
시사점, 한계점
•
시사점:
◦
생성 확률을 활용한 보상 일관성 확립으로 LLM 보상 모델의 일반화 성능 향상.
◦
과정 내 일관성 정규화를 통한 세밀한 보상 학습 신호 제공.
◦
RewardBench에서 향상된 성능 및 DPO 정렬 정책, BON 추론 시간 검증 결과 달성.