Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF

Created by
  • Haebom

저자

Kangwen Zhao, Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li

개요

본 논문은 RLHF(Reinforcement Learning from Human Feedback)에서 나타나는 보상 해킹 문제, 특히 길이 편향(length bias) 문제를 해결하기 위한 새로운 프레임워크인 FiMi-RM을 제안한다. FiMi-RM은 기존 연구의 한계(편향 형태를 특징짓지 않거나 선형 관계를 가정)를 극복하기 위해, 보상 모델의 길이와 보상 간의 비선형 관계를 자동으로 학습하고 수정하는 3단계 접근 방식을 사용한다. 먼저, 길이 편향이 포함된 표준 보상 모델을 학습하고, 가벼운 피팅 모델을 사용하여 길이와 보상 간의 비선형 관계를 명시적으로 파악한 후, 이 학습된 관계를 보상 모델에 통합하여 편향을 제거한다. 실험 결과, FiMi-RM은 더 균형 잡힌 길이-보상 분포를 달성하고, 정렬 알고리즘에 적용 시 길이 제어 승률을 향상시키고 장황함을 줄이면서 성능 저하를 방지하는 것으로 나타났다.

시사점, 한계점

시사점:
RLHF의 길이 편향 문제를 해결하기 위한 효과적인 새로운 프레임워크 FiMi-RM 제시
길이와 보상 간의 비선형 관계를 명시적으로 모델링하여 기존 연구의 한계 극복
FiMi-RM을 통해 더 균형 잡힌 길이-보상 분포 달성 및 길이 제어 승률 향상, 장황함 감소
성능 저하 없이 보상 모델의 길이 편향을 완화하는 방법 제시
한계점:
FiMi-RM의 성능은 피팅 모델의 성능에 의존적일 수 있음.
다양한 유형의 보상 해킹 문제에 대한 일반화 가능성에 대한 추가 연구 필요.
실험은 특정 데이터셋과 작업에 국한되어 다른 상황에서의 일반화 성능 검증 필요.
👍