Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AMPO: Active Multi-Preference Optimization for Self-play Preference Selection

Created by
  • Haebom

저자

Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan

개요

본 논문은 다중 선호도 최적화를 통해 대규모 언어 모델의 정렬을 향상시키는 Active Multi-Preference Optimization (AMPO) 기법을 제안합니다. 기존 pairwise 선호도 비교를 넘어, 유익한 응답과 원치 않는 응답 집합 전체를 비교하여 더욱 풍부한 훈련 신호를 제공합니다. 이는 자가 플레이 정렬 과정에서 생성되는 다수의 후보 응답을 효율적으로 처리하기 위해, 온 폴리시 생성, 다중 선호도 그룹 대조 손실, 그리고 능동적 하위 집합 선택을 결합합니다. 후보 응답들을 점수 매기고 임베딩하여 보상의 극값과 구별되는 의미 클러스터를 포함하는 작지만 정보가 풍부한 하위 집합을 선택하여 선호도 최적화를 수행합니다. 이를 통해 최고와 최악의 답변뿐 아니라, 강력한 정렬에 중요한 미묘하고 덜 탐색된 모드까지 식별할 수 있습니다. 이론적으로는 제안하는 능동적 선택 방법을 사용한 기대 보상 극대화에 대한 보장을 제공하며, 실험적으로 Llama 8B와 Mistral 7B를 사용한 AlpacaEval에서 최첨단 결과를 달성합니다. 관련 데이터셋을 공개합니다.

시사점, 한계점

시사점:
다중 선호도 최적화를 통해 기존 pairwise 방식보다 더욱 풍부한 훈련 신호를 제공하여 LLM 정렬 성능 향상.
능동적 하위 집합 선택을 통해 계산 비용을 효율적으로 관리하면서도 정보가 풍부한 훈련 데이터를 확보.
최고/최악의 답변뿐 아니라 미묘한 모드까지 식별하여 강건한 LLM 정렬 달성.
AlpacaEval에서 SOTA 성능 달성.
데이터셋 공개를 통한 연구 재현성 및 발전 가능성 제시.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처 및 크기에 대한 확장성 검증 필요.
능동적 선택 방법의 최적화 파라미터 설정에 대한 추가 연구 필요.
👍