본 논문은 다중 선호도 최적화를 통해 대규모 언어 모델의 정렬을 향상시키는 새로운 방법인 활성 다중 선호도 최적화(AMPO)를 제안합니다. 기존의 쌍방향 선호도 비교를 넘어, 유익한 응답과 원치 않는 응답의 전체 집합을 비교함으로써 더욱 풍부한 훈련 신호를 제공합니다. 이는 자기 학습 과정에서 생성되는 다수의 후보 응답을 효율적으로 처리하기 위해, 온 폴리시 생성, 다중 선호도 그룹 대조 손실, 그리고 활성 부분집합 선택을 결합합니다. 후보 응답들을 점수 매기고 임베딩한 후, 보상의 극값과 구별되는 의미 클러스터를 포함하는 작지만 정보가 풍부한 부분집합을 선택하여 선호도 최적화를 수행합니다. 이를 통해 최고 및 최악의 답변뿐 아니라, 강력한 정렬에 중요한 미묘하고 덜 탐색된 모드를 식별할 수 있습니다. 이론적으로는 활성 선택 방법을 사용한 기대 보상 극대화에 대한 보장을 제공하며, 실험적으로는 Llama 8B를 사용하여 AlpacaEval에서 최첨단 결과를 달성합니다.