Sign In

Game-Theoretic Regularized Self-Play Alignment of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Xiaohang Tang, Sangwoong Yoon, Seongho Son, Huizhuo Yuan, Quanquan Gu, Ilija Bogunovic

개요

본 논문은 대규모 언어 모델(LLM)의 미세 조정을 위한 효과적인 방법으로 자기 플레이 정렬 알고리즘을 제시하며, 이를 선호도 최적화의 2인 게임으로 공식화합니다. 기존 자기 플레이 정렬 알고리즘의 과적합 문제 해결에 중요한 기준 정책에 대한 규제가 부족했던 점을 지적하고, 새로운 규제 방법이 규제되지 않은 자기 플레이를 상당히 개선할 수 있음을 보여줍니다. 이를 위해, 일반화된 규제 자기 플레이 정책 최적화(RSPO) 프레임워크를 제안하며, 선택된 규제 항을 손실 함수에 추가하는 간단한 방법으로 자기 플레이를 규제합니다. Mistral-7B-Instruct 기반 모델을 사용한 실험 결과, 전방 KL 발산 규제는 응답 길이를 줄이고, 후방 KL 발산 규제는 승률을 향상시키는 것을 확인했습니다. 전방 및 후방 KL 발산 규제의 선형 결합을 사용한 RSPO는 AlpacaEval-2에서 길이 제어 승률을 $28.53$에서 $35.44$로 크게 향상시켰으며, 응답 다양성도 개선했습니다.

시사점, 한계점

시사점:
RSPO 프레임워크를 통해 자기 플레이 정렬 알고리즘의 성능을 향상시킬 수 있음을 보여줌.
전방 및 후방 KL 발산 규제의 효과를 실험적으로 검증하고, 이를 조합하여 성능을 더욱 향상시킬 수 있음을 제시.
응답 길이 제어 및 응답 다양성 개선에 대한 효과적인 방법을 제시.
한계점:
제안된 방법의 효과가 특정 모델(Mistral-7B-Instruct)과 평가 데이터셋(AlpacaEval-2)에 국한될 가능성.
다른 유형의 규제 방법이나 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
RSPO의 계산 비용 및 복잡도에 대한 분석 부족.
👍