본 논문은 인간의 가치와 부합하도록 거대 언어 모델(LLM)을 정렬하는 문제를 다룬다. 특히, 특정 작업에서 인간을 능가하는 강력한 LLM(학생)을 약한 감독 신호를 제공하는 약한 LLM(교사)을 통해 정렬하는 '약한-강한 정렬' 문제에 초점을 맞춘다. 기존 방법들이 강한-약한 정렬이나 자기 정렬에 집중하는 것과 달리, 본 논문은 다중 에이전트 대조 선호도 최적화(MACPO) 프레임워크를 제안한다. MACPO는 약한 교사와 강한 학생이 서로의 긍정적 행동을 강화하고 부정적 행동을 처벌함으로써 상호 학습을 가능하게 한다. 여기에는 상호 긍정적 행동 증강 전략과 어려운 부정적 행동 생성 전략이 포함된다. HH-RLHF 및 PKU-SafeRLHF 데이터셋을 이용한 실험 결과, MACPO가 강한 학생과 약한 교사 모두의 정렬 성능을 향상시키며, 약한 교사의 수가 증가할수록 성능이 더 향상됨을 보여준다.