본 논문은 인간 선호도의 복잡성을 포착하기 위해 게임 이론적 프레임워크를 활용하여 언어 모델 정렬 문제를 해결하는 새로운 접근 방식인 Convergent Meta Alignment Algorithm (COMAL)을 제안한다. 기존 정렬 방법의 한계점을 극복하고, Nash 균형 정책을 찾아 모든 경쟁 정책에 대해 50% 승률을 보장하는 것을 목표로 한다. COMAL은 단순하면서도 기존 선호도 최적화 방법과 통합하기 쉬우며, Llama-3-8B-Instruct 및 Qwen2.5-7B 모델에 적용하여 높은 승률을 입증했다.