Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preference Optimization by Estimating the Ratio of the Data Distribution

Created by
  • Haebom

저자

Yeongmin Kim, Heesun Bae, Byeonghu Na, Il-Chul Moon

개요

본 논문은 대규모 언어 모델(LLM)을 인간 선호도에 맞추는 데 널리 사용되는 간단하고 안정적인 방법인 직접 선호도 최적화(DPO)를 연구합니다. 특히, 가능도 비율 추정 관점에서 정책 모델이 목표 정책과 일치하도록 하는 일반화된 DPO 손실 함수를 조사합니다. 목표 정책의 비율은 보상 모델이나 분할 함수에 의존하지 않고 정책 분포를 고유하게 식별합니다. 이를 통해 일반화된 손실 함수는 기존 연구(예: $f$-PO)가 동시에 달성하지 못했던 단순성과 이론적 보장을 모두 유지합니다. 본 논문에서는 목표 정책 최적성을 달성하는 일련의 목적 함수를 제공하는 비율 일치를 위한 일반화된 프레임워크인 Bregman 선호도 최적화(BPO)를 제안합니다. BPO는 DPO를 특수한 경우로 포함하며 모든 인스턴스에 대해 다루기 쉬운 형태를 제공하여 몇 줄의 코드로 구현할 수 있습니다. 또한 BPO 인스턴스에 사용할 수 있는 기울기 스케일링 방법인 확장된 Basu의 거듭제곱 발산(SBA)을 개발합니다. BPO 프레임워크는 다른 DPO 변형을 보완하며 이러한 변형으로 정의된 목표 정책에 적용할 수 있습니다. 실험 결과, 생성 충실도와 다양성 사이의 절충을 보이는 다른 확률적 손실 확장(예: $f$-DPO 또는 $f$-PO)과 달리 BPO 인스턴스는 DPO와 비교하여 승률과 엔트로피를 모두 향상시킵니다. Llama-3-Instruct-8B에 적용했을 때 BPO는 Llama-3-8B 백본 중 최첨단 성능을 달성하며 AlpacaEval2에서 55.9%의 길이 제어 승률을 기록합니다.

시사점, 한계점

시사점:
DPO의 단순성과 이론적 보장을 유지하면서 성능을 향상시키는 일반화된 DPO 프레임워크인 BPO를 제시.
BPO는 다양한 목표 정책에 적용 가능하며 기존 DPO 변형을 보완.
실험 결과, BPO는 DPO보다 승률과 엔트로피 모두 향상.
Llama-3-Instruct-8B에서 최첨단 성능 달성.
한계점:
BPO의 일반적인 성능 향상에도 불구하고, 특정 응용 분야나 데이터셋에 대한 추가적인 실험이 필요.
BPO의 계산 비용 및 확장성에 대한 추가적인 분석이 필요.
제안된 SBA 기울기 스케일링 방법의 최적 파라미터 설정에 대한 추가적인 연구가 필요.
👍