본 논문은 대규모 언어 모델(LLM)의 미세 조정을 위한 효과적인 방법으로 자기 플레이 정렬 알고리즘을 제시하며, 이를 선호도 최적화의 2인 게임으로 공식화합니다. 기존 자기 플레이 정렬 알고리즘의 과적합 문제 해결에 중요한 기준 정책에 대한 규제가 부족했던 점을 지적하고, 새로운 규제 방법이 규제되지 않은 자기 플레이를 상당히 개선할 수 있음을 보여줍니다. 이를 위해, 일반화된 규제 자기 플레이 정책 최적화(RSPO) 프레임워크를 제안하며, 선택된 규제 항을 손실 함수에 추가하는 간단한 방법으로 자기 플레이를 규제합니다. Mistral-7B-Instruct 기반 모델을 사용한 실험 결과, 전방 KL 발산 규제는 응답 길이를 줄이고, 후방 KL 발산 규제는 승률을 향상시키는 것을 확인했습니다. 전방 및 후방 KL 발산 규제의 선형 결합을 사용한 RSPO는 AlpacaEval-2에서 길이 제어 승률을 $28.53$에서 $35.44$로 크게 향상시켰으며, 응답 다양성도 개선했습니다.