본 논문은 인간 피드백으로부터의 강화 학습(RLHF)을 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 기존 방법의 취약성, 즉 하류 작업이 미세 조정에 사용된 선호도 데이터셋과 크게 다를 경우 성능이 저하되는 문제를 해결하고자 한다. 이를 위해, 분포적으로 강건한 RLHF를 제안한다. 구체적으로, 미세 조정된 모델이 미세 조정 중에 접한 프롬프트 분포와 크게 다른 프롬프트 분포에서도 성능을 유지하도록 하는 것을 목표로 한다. 두 가지 인기 있는 미세 조정 방법인 보상 기반 RLHF와 보상 없는 DPO(직접 선호도 최적화)에 대한 분포적으로 강건한 최적화(DRO) 버전을 공식화하고, 이를 위한 미니배치 경사 하강법 기반 알고리즘을 제안하며, 해당 알고리즘의 수렴 보장을 이론적으로 증명한다. Unified-Feedback 데이터셋으로 모델을 훈련하고 두 개의 다른 데이터셋에서 성능을 평가하는 비분포(OOD) 작업에서 알고리즘을 평가한다. 실험 결과, 강건한 훈련이 학습된 보상 모델의 정확도를 평균적으로 향상시키고, 추론과 같은 특정 작업에서는 현저하게 향상시킴을 보여준다. 또한, 정책 최적화 방법의 강건한 버전도 OOD 작업에서 성능을 유사하게 향상시킨다는 것을 보여준다.