본 논문은 다중 선호도 최적화를 통해 대규모 언어 모델의 정렬을 향상시키는 Active Multi-Preference Optimization (AMPO) 기법을 제안합니다. 기존 pairwise 선호도 비교를 넘어, 유익한 응답과 원치 않는 응답 집합 전체를 비교하여 더욱 풍부한 훈련 신호를 제공합니다. 이는 자가 플레이 정렬 과정에서 생성되는 다수의 후보 응답을 효율적으로 처리하기 위해, 온 폴리시 생성, 다중 선호도 그룹 대조 손실, 그리고 능동적 하위 집합 선택을 결합합니다. 후보 응답들을 점수 매기고 임베딩하여 보상의 극값과 구별되는 의미 클러스터를 포함하는 작지만 정보가 풍부한 하위 집합을 선택하여 선호도 최적화를 수행합니다. 이를 통해 최고와 최악의 답변뿐 아니라, 강력한 정렬에 중요한 미묘하고 덜 탐색된 모드까지 식별할 수 있습니다. 이론적으로는 제안하는 능동적 선택 방법을 사용한 기대 보상 극대화에 대한 보장을 제공하며, 실험적으로 Llama 8B와 Mistral 7B를 사용한 AlpacaEval에서 최첨단 결과를 달성합니다. 관련 데이터셋을 공개합니다.