Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng
개요
본 논문은 추론 시점에서 대규모 언어 모델을 인간 피드백에 맞추는 방법에 대한 연구입니다. 기존 방법들은 보상 모델을 사용하여 기본 정책에서 여러 응답을 생성하고 탐색하는 방식을 사용하지만, 기본 정책이 약하거나 후보 집합이 작을 경우 효과적이지 못합니다. 이를 해결하기 위해 본 논문에서는 간단하지만 효과적인 추론 시점 정렬 알고리즘인 Simple Energy Adaptation (SEA)를 제안합니다. SEA는 이산 공간에서의 비용이 많이 드는 탐색과 달리, 연속적인 잠재 공간에서 기울기 기반 샘플링을 통해 기본 정책의 원래 응답을 최적의 응답으로 직접 적응시킵니다. 최적 정책에 의해 정의된 연속 공간에서의 행동에 대한 에너지 함수에 대한 반복적인 최적화 절차로 추론을 공식화하여 간단하고 효과적인 정렬을 가능하게 합니다. 실험 결과, SEA는 간단함에도 불구하고 AdvBench에서 최고 성능의 기준 모델보다 최대 77.51% 향상, MATH에서 16.36% 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
연속 잠재 공간에서의 기울기 기반 샘플링을 통해 기존의 이산 공간 탐색 방식의 한계를 극복했습니다.