본 논문은 인간 피드백으로부터 강화 학습(RLHF)을 사용하여 대규모 언어 모델을 인간의 선호도에 맞추는 문제를 다룬다. 기존의 DPO 방법은 밴딧 문제로 모델링하여 다회차 대화와 같은 실제 상황에 적용하기 어렵고, 인간 선호도의 비이행성을 제대로 반영하지 못하는 Bradley-Terry 모델 가정에 의존한다는 한계를 지닌다. 본 논문에서는 이러한 문제를 해결하기 위해, 대화의 모든 단계에서 상대방에 대한 승률을 극대화하려는 두 플레이어의 제로섬 마르코프 게임으로 문제를 모델링하는 새로운 방법인 낙관적 다단계 선호도 최적화(OMPO)를 제안한다. OMPO는 낙관적 온라인 미러 하강 알고리즘을 기반으로 하며, 수렴성 분석을 통해 $\mathcal{O}(\epsilon^{-1})$ 번의 정책 업데이트로 $\epsilon$-근사 내쉬 평형에 수렴함을 보인다. 다회차 대화 데이터셋과 수학 추론 데이터셋에서의 실험을 통해 방법의 효과성을 검증한다.
시사점, 한계점
•
시사점: 다회차 대화 상황에서 인간 선호도에 맞춰 대규모 언어 모델을 효과적으로 정렬하는 새로운 방법(OMPO)을 제시하고, 이론적 수렴성 분석 및 실험적 검증을 통해 그 효용성을 입증하였다. 기존 방법의 한계인 비이행적 선호도 및 다회차 대화 문제를 효과적으로 해결하였다.
•
한계점: 제안된 OMPO 알고리즘의 실제 적용에 필요한 계산 비용 및 데이터 요구량에 대한 자세한 분석이 부족하다. 다양한 유형의 대화 및 작업에 대한 일반화 성능에 대한 추가적인 연구가 필요하다. 실험 데이터셋의 규모 및 다양성에 대한 자세한 설명이 필요하다.