Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Intra-Trajectory Consistency for Reward Modeling

Created by
  • Haebom

저자

Chaoyang Zhou, Shunyu Liu, Zengmao Wang, Di Wang, Rong-Cheng Tu, Bo Du, Dacheng Tao

개요

본 논문은 대규모 언어 모델(LLM)의 보상 모델링을 개선하는 방법을 제시합니다. 기존의 보상 모델링은 응답 전체에 대한 점수에 의존하여 학습하지만, 이는 세밀하지 못한 지도 신호이기 때문에 일반화 성능이 저조합니다. 본 논문에서는 생성 확률을 활용하여 응답 과정 간의 보상 일관성을 확립함으로써 응답 수준의 지도 신호를 과정 전반으로 전파하여 보상 학습을 위한 세밀한 신호를 추가로 제공하는 방법을 제안합니다. 베이지안 프레임워크 하에서 분석을 기반으로, 높은 다음 토큰 생성 확률을 가진 인접 과정은 더 일관된 보상을 유지하도록 하는 과정 내 일관성 규제를 개발했습니다. RewardBench에서 향상된 성능을 보이는 고급 결과 보상 모델에 제안된 규제를 적용하였으며, 제안된 규제로 학습된 보상 모델이 더 나은 DPO 정렬 정책을 유도하고, 더 나은 Best-of-N (BON) 추론 시간 검증 결과를 달성함을 보여줍니다.

시사점, 한계점

시사점:
생성 확률을 활용한 보상 일관성 확립으로 LLM 보상 모델링의 성능 향상 가능성 제시.
과정 내 일관성 규제를 통해 세밀한 지도 신호 제공 및 일반화 성능 개선.
RewardBench 및 DPO, BON 검증에서 성능 향상 확인.
개선된 보상 모델을 위한 오픈소스 코드 제공.
한계점:
제안된 방법의 효과는 특정 벤치마크 및 모델에 국한될 수 있음.
다양한 LLM 아키텍처 및 RLHF 방법론에 대한 일반화 성능 검증 필요.
베이지안 프레임워크에 대한 전제 조건으로 인한 한계 존재 가능성.
👍