Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Created by
  • Haebom

저자

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang

Direct Preference Optimization (DPO)을 위한 샘플 스케줄링

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 효과적인 방법으로 부상한 Direct Preference Optimization (DPO)의 성능이 기본이 되는 인간 선호도 데이터의 품질에 크게 의존한다는 점에 주목합니다. 기존 연구에서는 다양한 데이터 선택 전략을 탐구했지만, 이러한 방법들은 최적화 과정에서 언어 모델의 변화하는 상태에 미치는 영향을 간과했습니다. 이에 본 논문에서는 DPO를 위한 샘플 스케줄링이라는 새로운 문제를 제기하며, 선호도 최적화 전반에 걸쳐 모델의 변화하는 배치별 상태에 따라 훈련 샘플을 동적이고 적응적으로 스케줄링하는 것을 목표로 합니다. 이 문제를 해결하기 위해, 본 논문에서는 LLM의 학습 피드백을 기반으로 각 훈련 배치에서 샘플을 적응적으로 선택하여 잠재적인 일반화 성능을 극대화하는 효율적이고 효과적인 알고리즘인 SamS를 제안합니다. SamS를 DPO 알고리즘에 통합함으로써, 핵심 DPO 알고리즘을 수정하지 않고도 작업 전반에서 성능을 크게 향상시키면서 추가적인 계산 오버헤드는 최소화했습니다.

시사점, 한계점

시사점:
DPO의 성능 향상을 위한 새로운 접근 방식 제시: 배치별 샘플 선택을 통해 LLM 정렬 개선.
최소한의 계산 오버헤드로 성능을 향상시키는 효과적인 샘플 스케줄링 알고리즘 SamS 제안.
RLHF 및 더 넓은 범위의 지도 학습 패러다임으로의 일반화 가능성 제시.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍