Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Reward Fairness in RLHF: From a Resource Allocation Perspective

Created by
  • Haebom

저자

Sheng Ouyang, Yulan Hu, Ge Chen, Qingyang Li, Fuzheng Zhang, Yong Liu

개요

본 논문은 인간 피드백으로부터의 강화 학습(RLHF)에서 불완전하고 다양한 편향을 가진 보상이 대규모 언어 모델(LLM)의 정렬에 부정적인 영향을 미치는 문제를 다룹니다. 보상의 다양한 편향을 '보상 불공정성'으로 정의하고, 각각의 편향에 대해 특별히 설계하지 않고도 효과적으로 완화하는 자원 배분 관점에서의 편향에 무관한 방법을 제안합니다. 보상을 배분할 자원으로 취급하여 유틸리티와 공정성 사이의 절충을 고려하는 자원 배분 문제로 선호도 학습을 모델링합니다. 공정성 규제와 공정성 계수라는 두 가지 방법을 제안하여 보상의 공정성을 달성하고, 검증 및 강화 학습 시나리오에 적용하여 공정한 보상 모델과 정책 모델을 각각 얻습니다. 실험 결과, 제안된 접근 방식이 LLM을 인간의 선호도에 더 공정하게 정렬시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
RLHF에서 보상의 편향 문제를 '보상 불공정성'으로 명확히 정의하고, 이를 자원 배분 관점에서 해결하는 새로운 접근 방식을 제시.
특정 편향에 대한 설계 없이도 다양한 편향을 효과적으로 완화하는 방법을 제안.
공정성 규제와 공정성 계수라는 두 가지 실용적인 방법을 제시하고, 검증 및 강화 학습 시나리오에서 효과를 검증.
LLM의 인간 선호도 정렬에 대한 공정성을 향상시키는 데 기여.
한계점:
제안된 방법의 일반성 및 다양한 유형의 LLM 및 작업에 대한 적용 가능성에 대한 추가 연구 필요.
자원 배분 모델의 파라미터 설정 및 최적화에 대한 추가적인 연구 필요.
실험 환경의 제한으로 인해 실제 세계 적용에 대한 일반화 가능성에 대한 추가 검증 필요.
👍