Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards a Unified View of Large Language Model Post-Training

Created by
  • Haebom

저자

Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

개요

본 논문은 사후 학습 현대 언어 모델의 두 가지 주요 훈련 데이터 소스인 온라인 데이터(모델 생성 롤아웃)와 오프라인 데이터(인간 또는 다른 모델의 데모)를 다룹니다. 강화 학습(RL)과 지도 미세 조정(SFT)과 같은 접근 방식은 각각 이 두 가지 유형의 데이터를 사용합니다. 본 논문에서는 이러한 접근 방식이 상반되는 것이 아니라 단일 최적화 프로세스의 인스턴스임을 보여줍니다. 통합 정책 기울기 추정기를 도출하고, 다양한 데이터 분포 가정과 다양한 편향-분산 절충 하에서 공통 목표의 기울기로서 광범위한 사후 학습 접근 방식의 계산을 제시합니다. 이 기울기 추정기는 안정화 마스크, 참조 정책 분모, 이점 추정 및 가능성 기울기의 네 가지 교체 가능한 부분으로 구성됩니다. 이론적 발견에 따라, 본 논문은 훈련 신호를 동적으로 선택하는 알고리즘인 하이브리드 사후 학습(HPT)을 제안합니다. HPT는 학습된 추론 패턴을 희생하지 않고 데모의 효과적인 활용과 안정적인 탐색을 모두 제공하도록 설계되었습니다. 본 논문은 통합 이론적 프레임워크와 HPT의 효과를 확인하기 위한 광범위한 실험과 절제 연구를 제공합니다. 여섯 가지 수학적 추론 벤치마크와 두 가지 분포 외 집합에서 HPT는 다양한 규모와 계열의 모델에서 강력한 기준 모델을 일관되게 능가합니다.

시사점, 한계점

시사점:
사후 학습 접근 방식(RL, SFT 등)을 통합하는 단일 최적화 프레임워크를 제시하여 이론적 이해를 높였습니다.
데모 활용과 안정적인 탐색을 동시에 달성하는 효과적인 하이브리드 사후 학습(HPT) 알고리즘을 제안했습니다.
다양한 벤치마크에서 HPT의 우수한 성능을 실험적으로 검증했습니다.
모델의 규모와 계열에 관계없이 일관된 성능 향상을 보였습니다.
한계점:
제안된 HPT 알고리즘의 최적 매개변수 설정에 대한 추가 연구가 필요할 수 있습니다.
다양한 유형의 언어 모델과 작업에 대한 일반화 성능을 더욱 검증해야 합니다.
HPT의 계산 비용 및 효율성에 대한 자세한 분석이 필요할 수 있습니다.
👍