본 논문은 대규모 언어 모델(LLM)의 미세 조정을 위한 효과적인 접근 방식으로 떠오른 자기 놀이 정렬(self-play alignment)에서 참조 정책에 대한 규제(regularization)의 중요성을 강조합니다. 기존의 자기 놀이 정렬 방법에서 참조 정책에 대한 규제가 충분히 연구되지 않았다는 점을 지적하며, 다양한 규제 전략의 영향을 연구하기 위해 일반적이고 모듈화된 프레임워크인 **규제된 자기 놀이 정책 최적화(RSPO)**를 제안합니다. RSPO는 기존 방법들을 통합하고 다양한 규제자의 간편한 플러그 앤 플레이 통합을 가능하게 하면서, 동시에 대응하는 규제 게임의 내쉬 균형으로의 수렴을 보장합니다. 120개 이상의 미세 조정된 Mistral-7B-Instruct 모델을 사용한 실험 결과, 순방향 KL 발산 규제는 응답 길이를 줄이는 반면, 역방향 KL 발산은 원시 승률을 크게 향상시키는 것을 보여줍니다. 특히, 순방향 및 역방향 KL 발산의 선형 결합으로 규제된 RSPO는 AlpacaEval-2에서 길이 제어 승률을 28.5%(비규제 자기 놀이, SPPO)에서 35.4%로 크게 향상시켰으며, Arena-Hard, MT-Bench, ArmoRM 점수 및 응답 다양성에서 지속적으로 우수한 성능을 보였습니다. RSPO는 단순성, 수렴 보장 및 상당한 실험적 성과를 결합하여 언어 모델 정렬에서 규제된 자기 놀이를 탐구하기 위한 강력한 기반을 제공합니다.