Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward Model Overoptimisation in Iterated RLHF

Created by
  • Haebom

저자

Lorenz Wolf, Robert Kirk, Mirco Musolesi

개요

본 논문은 인간 피드백으로부터 강화 학습(RLHF)에서 반복되는 과적합 문제에 대한 최초의 종합적인 연구를 제시합니다. RLHF는 대규모 언어 모델을 인간의 선호도에 맞추는 데 널리 사용되는 방법이지만, 보상 모델 과적합으로 인해 일반화되지 않는 정책이 생성되는 문제가 있습니다. 이를 완화하기 위해 보상 모델을 반복적으로 재훈련하고 정책을 재최적화하는 반복 RLHF가 사용되지만, 이 과정에서의 과적합 역학은 잘 이해되지 않았습니다. 본 연구는 AlpacaFarm 벤치마크를 사용하여 보상 모델 훈련 데이터 전송 방식, 최적화에 사용되는 보상 함수, 정책 초기화 방식 등 주요 설계 선택에 대한 체계적인 분석을 수행합니다. 그 결과, 반복적인 과정을 거치면서 보상 모델이 실제 선호도에 점점 근접함에 따라 과적합은 감소하는 경향을 보이지만, 성능 향상은 시간이 지남에 따라 감소하고, 기본 정책에서 재초기화하는 것이 안정적이지만 최적화 유연성을 제한한다는 것을 발견하였습니다. 다른 초기화 전략은 초기 과적합에서 회복하지 못하는 경우가 많습니다. 본 연구는 더 안정적이고 일반화 가능한 RLHF 파이프라인을 구축하기 위한 실행 가능한 통찰력을 제공합니다.

시사점, 한계점

시사점:
반복 RLHF에서 과적합은 반복적인 과정을 통해 감소하는 경향이 있음을 밝힘.
보상 모델이 실제 선호도에 가까워짐에 따라 과적합이 완화됨을 확인.
기본 정책 재초기화 전략의 안정성과 유연성 사이의 절충점 제시.
더 안정적이고 일반화 가능한 RLHF 파이프라인 구축을 위한 실행 가능한 통찰력 제공.
한계점:
AlpacaFarm 벤치마크에 국한된 연구 결과임. 다른 벤치마크나 실제 환경에서의 일반화 가능성에 대한 추가 연구 필요.
다양한 초기화 전략 중 일부만 고려되었을 가능성. 더 포괄적인 초기화 전략 분석 필요.
성능 향상 감소에 대한 명확한 원인 분석 부족. 더 자세한 분석을 통해 원인 규명 필요.
👍