Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Information-Theoretic Reward Decomposition for Generalizable RLHF

Created by
  • Haebom

저자

Liyuan Mao, Haoran Xu, Amy Zhang, Weinan Zhang, Chenjia Bai

개요

본 논문은 인간 피드백 기반 강화 학습(RLHF)에서 일반화 가능한 보상 모델의 중요성을 강조하며, 기존 보상 모델들이 선택된 응답과 거절된 응답 간의 보상 차이를 증가시키는 데 초점을 맞춰 훈련되면서 프롬프트를 고려하지 않아 일반화 성능이 떨어지는 문제점을 지적합니다. 이를 해결하기 위해, 보상 값을 프롬프트와 무관한 보상과 프롬프트 관련 보상으로 분해하는 방법을 제안합니다. 정보 이론적 관점에서 추가 모델 없이 두 구성 요소를 추출하고, 프롬프트와 무관한 보상 값을 기반으로 데이터 샘플에 우선순위를 부여하는 새로운 보상 학습 알고리즘을 제시합니다. 장난감 예시를 통해 추출된 두 보상이 보상 모델의 두 부분을 효과적으로 특징짓는다는 것을 보여주고, 표준 평가를 통해 제안된 방법이 보상 모델의 정렬 성능과 일반화 능력을 향상시킨다는 것을 실험적으로 확인합니다.

시사점, 한계점

시사점:
프롬프트를 고려한 보상 모델 설계를 통해 RLHF의 일반화 성능 향상 가능성 제시
정보 이론적 접근을 통한 효율적인 보상 분해 및 학습 알고리즘 제안
프롬프트와 무관한 보상을 활용한 데이터 샘플링 전략의 효과 입증
한계점:
장난감 예시를 사용한 실험 결과로, 실제 대규모 데이터셋에 대한 실험 결과가 필요
제안된 방법의 계산 비용 및 확장성에 대한 추가적인 분석 필요
다양한 RLHF 응용 분야에 대한 일반화 성능 평가가 부족
👍