Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model Extrapolation Expedites Alignment

Created by
  • Haebom

저자

Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun Peng

개요

본 논문은 대규모 언어 모델(LLM)의 선호도 정렬 훈련에 드는 높은 계산 비용을 줄이는 효율적인 방법을 제시합니다. 정렬 훈련은 모델에 새로운 지식을 주입하기보다는 작은 매개변수 변화만을 포함하는 경우가 많다는 점에 착안하여, ExPO(모델 외삽법)라는 간단한 방법을 제안합니다. ExPO는 부분적으로 훈련된 모델과 초기 SFT 체크포인트를 사용하여 1차 근사를 기반으로 매개변수 변화를 증폭시킴으로써 정렬 훈련의 암묵적 최적화 목표를 개선합니다. 추가적인 훈련 오버헤드 없이도 이루어집니다. 실험 결과, ExPO는 20%의 훈련 단계만으로 DPO 모델을 훈련시켜 완전히 훈련된 모델보다 성능이 우수함을 보여줍니다. 또한, 18억 개에서 700억 개의 매개변수를 가진 기존 오픈소스 LLM의 AlpacaEval 2.0 및 MT-Bench 벤치마크 성능을 개선하여, LLM 정렬을 효율적으로 향상시키는 ExPO의 광범위한 유용성을 강조합니다.

시사점, 한계점

시사점:
LLM의 선호도 정렬 훈련 비용을 효과적으로 절감할 수 있는 새로운 방법 제시.
추가적인 훈련 없이도 기존 모델의 성능을 향상시킬 수 있음을 실험적으로 증명.
다양한 규모의 오픈소스 LLM에서 성능 향상을 확인하여 실용성을 입증.
1차 근사를 이용한 간단한 방법으로 구현되어 적용이 용이함.
한계점:
제안된 방법의 효과가 1차 근사에 의존적이므로, 모델의 복잡성이 증가하거나 특정한 유형의 데이터에 대해서는 성능 저하 가능성 존재.
현재 실험 결과는 특정 벤치마크와 데이터셋에 국한되어 일반화 가능성에 대한 추가 연구 필요.
다양한 정렬 훈련 방법과의 비교 분석이 부족.
👍