본 논문은 사후 학습 현대 언어 모델의 두 가지 주요 훈련 데이터 소스인 온라인 데이터(모델 생성 롤아웃)와 오프라인 데이터(인간 또는 다른 모델의 데모)를 다룹니다. 강화 학습(RL)과 지도 미세 조정(SFT)과 같은 접근 방식은 각각 이 두 가지 유형의 데이터를 사용합니다. 본 논문에서는 이러한 접근 방식이 상반되는 것이 아니라 단일 최적화 프로세스의 인스턴스임을 보여줍니다. 통합 정책 기울기 추정기를 도출하고, 다양한 데이터 분포 가정과 다양한 편향-분산 절충 하에서 공통 목표의 기울기로서 광범위한 사후 학습 접근 방식의 계산을 제시합니다. 이 기울기 추정기는 안정화 마스크, 참조 정책 분모, 이점 추정 및 가능성 기울기의 네 가지 교체 가능한 부분으로 구성됩니다. 이론적 발견에 따라, 본 논문은 훈련 신호를 동적으로 선택하는 알고리즘인 하이브리드 사후 학습(HPT)을 제안합니다. HPT는 학습된 추론 패턴을 희생하지 않고 데모의 효과적인 활용과 안정적인 탐색을 모두 제공하도록 설계되었습니다. 본 논문은 통합 이론적 프레임워크와 HPT의 효과를 확인하기 위한 광범위한 실험과 절제 연구를 제공합니다. 여섯 가지 수학적 추론 벤치마크와 두 가지 분포 외 집합에서 HPT는 다양한 규모와 계열의 모델에서 강력한 기준 모델을 일관되게 능가합니다.
시사점, 한계점
•
시사점:
◦
사후 학습 접근 방식(RL, SFT 등)을 통합하는 단일 최적화 프레임워크를 제시하여 이론적 이해를 높였습니다.
◦
데모 활용과 안정적인 탐색을 동시에 달성하는 효과적인 하이브리드 사후 학습(HPT) 알고리즘을 제안했습니다.