ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment

작성자

Haebom

카테고리

Empty

저자

Xiaoqiang Lin, Arun Verma, Zhongxiang Dai, Daniela Rus, See-Kiong Ng, Bryan Kian Hsiang Low

💡 개요

본 논문은 대규모 언어 모델(LLM) 정렬에 필요한 인간 선호도 데이터 수집의 비용과 비효율성을 해결하기 위해 ActiveDPO라는 새로운 알고리즘을 제안합니다. ActiveDPO는 비선형 보상 함수에 대한 이론적으로 탄탄한 데이터 선택 기준을 사용하며, 데이터 선택을 위한 보상 모델을 직접 LLM으로 매개변수화합니다. 이를 통해 LLM 자체의 영향을 고려한 효율적인 데이터 수집을 가능하게 합니다.

🔑 시사점 및 한계

•

LLM 자체의 영향을 고려한 이론적으로 탄탄한 데이터 선택 기준을 통해 샘플 효율적인 LLM 정렬을 달성합니다.

•

기존 방법 대비 다양한 모델과 실제 선호도 데이터셋에서 우수한 성능을 입증했습니다.

•

제안된 방법론의 이론적 기반을 더 넓은 범위의 보상 함수 및 LLM 아키텍처로 확장할 필요가 있습니다.

PDF 보기

Made with Slashpage