[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback

Created by
  • Haebom

저자

Johannes Ackermann, Takashi Ishida, Masashi Sugiyama

개요

본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 언어 모델(LM)을 훈련할 때 발생하는 과적합 문제를 다룹니다. RLHF는 LM이 복잡한 인간 선호도를 따르도록 훈련하는 방법으로, 감독식 미세 조정으로 LM을 먼저 훈련하고, 응답 쌍을 샘플링하여 인간 피드백을 얻은 후, 이 데이터를 사용하여 보상 모델(RM)을 훈련합니다. 그런 다음 RL 방법을 사용하여 RM이 제공하는 보상을 극대화하도록 LM을 훈련합니다. 훈련이 진행됨에 따라 LM이 생성하는 응답은 RM 훈련 중에 본 응답과 달라지며, 이로 인해 RM이 부정확해지는 과적합 문제가 발생합니다. 본 논문은 이 과적합 문제를 분포 이동 관점에서 조사하여, 이 이동이 RM 매개변수의 불일치 추정 및 정책 경사의 불일치 추정으로 이어짐을 보여줍니다. 이를 해결하기 위해, 중요도 가중치를 사용하여 RM을 반복적으로 오프-폴리시 수정하는 Off-Policy Corrected Reward Modeling (OCRM)을 제안합니다. OCRM은 새로운 레이블이나 샘플 없이도 더 정확한 RM을 생성하며, 실험적으로 향상된 최종 정책으로 이어짐을 보여줍니다. 요약 및 챗봇 데이터셋을 이용한 실험을 통해 기존 RLHF 방법 및 기준선보다 성능이 크게 향상됨을 검증하고, 구현 코드를 공개합니다.

시사점, 한계점

시사점:
RLHF에서 발생하는 과적합 문제(overoptimization)에 대한 새로운 해석과 해결 방안 제시
새로운 방법인 OCRM을 통해 기존 RLHF 방법보다 성능 향상
새로운 레이블이나 샘플 없이도 성능 향상 가능
요약 및 챗봇 데이터셋에서 효과 검증
오픈소스 코드 공개를 통한 접근성 향상
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 종류의 언어 모델 및 작업에 대한 추가적인 실험 필요
OCRM의 계산 비용 및 효율성에 대한 분석 필요
인간 피드백의 품질 및 양에 대한 의존성 평가 필요
👍