Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Less is More: Improving LLM Alignment via Preference Data Selection

Created by
  • Haebom

저자

Xun Deng, Han Zhong, Rui Ai, Fuli Feng, Zheng Wang, Xiangnan He

개요

본 논문은 대규모 언어 모델을 인간의 선호도에 맞추는 유망한 방법인 직접 선호도 최적화(DPO)에서 데이터 선택이라는 중요하지만 간과된 측면을 개선하는 데 중점을 둡니다. 소음 데이터로 인한 매개변수 축소 문제를 해결하기 위해 DPO 훈련에서 새로운 마진 최대화 원리를 제안하고, 여러 보상 모델의 노이즈를 완화하기 위해 여러 마진 소스(외부 및 암시적)를 단일 선호도 확률로 통합하는 베이지안 집계 방법을 제안합니다. 다양한 설정에서의 광범위한 실험을 통해 접근 방식의 일관되게 높은 데이터 효율성을 보여줍니다. Ultrafeedback 데이터셋의 10%만 사용하여 AlpacaEval2 벤치마크에서 다양한 Llama, Mistral 및 Qwen 모델에 대해 3%~8%의 성능 향상을 달성했습니다. 또한, 반복적인 DPO로 확장하여 약 25%의 온라인 데이터로 약 3%의 성능 향상을 달성하여 고품질 데이터 생성 방식의 높은 중복성을 보여줍니다. 결과적으로 데이터 선택 전략이 선호도 최적화 발전에 잠재력이 있음을 강조합니다.

시사점, 한계점

시사점:
DPO에서 데이터 선택 전략의 중요성을 강조하고, 소음 데이터 문제 해결을 위한 효과적인 방법을 제시합니다.
제안된 마진 최대화 원리와 베이지안 집계 방법을 통해 데이터 효율성을 크게 향상시킬 수 있음을 실험적으로 증명합니다.
기존 고품질 데이터 생성 방식의 중복성을 밝히고, 데이터 선택을 통해 DPO의 성능을 개선할 수 있는 가능성을 제시합니다.
제한된 데이터만으로도 우수한 성능을 달성하여, 데이터 수집 비용을 절감할 수 있는 가능성을 보여줍니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 종류의 데이터셋에 대한 실험이 더 필요하며, 특정 데이터셋에 편향되어 있을 가능성이 있습니다.
마진 최대화 원리 및 베이지안 집계 방법의 매개변수 설정에 대한 추가적인 연구가 필요합니다.
실험 결과의 해석에 있어서 주의가 필요하며, 다른 선호도 최적화 방법과의 비교 분석이 더욱 상세하게 이루어져야 합니다.
👍