Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ComPO: Preference Alignment via Comparison Oracles

Created by
  • Haebom

저자

Peter Chen, Xi Chen, Wotao Yin, Tianyi Lin

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 직접 정렬 방법의 한계점을 해결하기 위해 새로운 선호도 정렬 방법을 제안합니다. 기존의 직접 정렬 방법은 선호 및 비선호 응답에 유사한 가능성을 유도하는 잡음이 많은 선호도 쌍으로 인해 장황함과 가능성 변위 문제를 겪습니다. 이 논문은 비교 오라클을 기반으로 하는 새로운 선호도 정렬 방법을 제안하고 기본 계획에 대한 수렴 보장을 제공합니다. 또한 휴리스틱을 사용하여 이 방법을 개선하고, 잡음이 많은 선호도 쌍을 사용하여 LLM의 성능을 향상시키는 실용적인 계획의 유연성과 호환성을 보여주는 실험을 수행합니다. Mistral-7B, Llama-3-8B, Gemma-2-9B 등 여러 기본 및 지시어 조정 모델과 AlpacaEval 2, MT-Bench, Arena-Hard 등의 벤치마크를 사용하여 평가를 수행했습니다. 실험 결과는 제안된 방법이 기존 직접 정렬 방법의 한계를 해결하는 대안으로 효과적임을 보여줍니다. 특히, 서로 다른 가능성 마진을 가진 선호도 쌍에 대해 특수한 방법을 설계하는 중요성을 증명하여 \citet{Razin-2025-Unintentional}의 최근 연구 결과를 보완합니다.

시사점, 한계점

시사점:
잡음이 많은 선호도 쌍을 사용하여 LLM의 성능을 향상시키는 새로운 효과적인 선호도 정렬 방법 제시.
기존 직접 정렬 방법의 장황함과 가능성 변위 문제 해결에 대한 대안 제시.
가능성 마진이 다른 선호도 쌍에 대한 특수화된 방법 설계의 중요성을 강조.
다양한 LLM과 벤치마크를 통해 방법의 효과성 검증.
한계점:
제안된 휴리스틱의 일반성 및 적용 가능성에 대한 추가적인 연구 필요.
더욱 다양하고 광범위한 벤치마크 및 LLM에 대한 실험이 필요할 수 있음.
\citet{Razin-2025-Unintentional}의 연구 결과를 보완하지만, 해당 연구와의 구체적인 연관성 및 차별점에 대한 자세한 설명 부족 가능성.
👍