Sign In

Distributionally Robust Reinforcement Learning with Human Feedback

Created by
  • Haebom
Category
Empty

저자

Debmalya Mandal, Paulius Sasnauskas, Goran Radanovic

개요

본 논문은 인간 피드백으로부터의 강화 학습(RLHF)을 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 기존 방법의 취약성, 즉 하류 작업이 미세 조정에 사용된 선호도 데이터셋과 크게 다를 경우 성능이 저하되는 문제를 해결하고자 한다. 이를 위해, 분포적으로 강건한 RLHF를 제안한다. 구체적으로, 미세 조정된 모델이 미세 조정 중에 접한 프롬프트 분포와 크게 다른 프롬프트 분포에서도 성능을 유지하도록 하는 것을 목표로 한다. 두 가지 인기 있는 미세 조정 방법인 보상 기반 RLHF와 보상 없는 DPO(직접 선호도 최적화)에 대한 분포적으로 강건한 최적화(DRO) 버전을 공식화하고, 이를 위한 미니배치 경사 하강법 기반 알고리즘을 제안하며, 해당 알고리즘의 수렴 보장을 이론적으로 증명한다. Unified-Feedback 데이터셋으로 모델을 훈련하고 두 개의 다른 데이터셋에서 성능을 평가하는 비분포(OOD) 작업에서 알고리즘을 평가한다. 실험 결과, 강건한 훈련이 학습된 보상 모델의 정확도를 평균적으로 향상시키고, 추론과 같은 특정 작업에서는 현저하게 향상시킴을 보여준다. 또한, 정책 최적화 방법의 강건한 버전도 OOD 작업에서 성능을 유사하게 향상시킨다는 것을 보여준다.

시사점, 한계점

시사점:
분포적으로 강건한 RLHF 알고리즘을 제시하여 기존 RLHF의 OOD 성능 저하 문제를 완화.
보상 기반 RLHF와 보상 없는 DPO에 대한 DRO 버전을 제안하고, 알고리즘의 수렴성을 이론적으로 증명.
실험을 통해 제안된 알고리즘이 OOD 작업에서 기존 방법보다 우수한 성능을 보임을 확인. 특히 추론과 같은 특정 작업에서 성능 향상이 두드러짐.
한계점:
제안된 알고리즘의 성능 향상이 모든 OOD 작업에서 일관되게 나타나는지 추가적인 실험이 필요.
사용된 데이터셋의 특성에 따른 알고리즘의 성능 변화에 대한 분석이 부족.
더욱 다양하고 복잡한 하류 작업에 대한 실험적 검증이 필요.
알고리즘의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍