Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng
개요
본 논문은 추론 시 인간 피드백을 활용하여 대규모 언어 모델을 정렬하는 새로운 알고리즘인 Simple Energy Adaptation (SEA)을 제안합니다. 기존 방법들이 이산적인 응답 공간에서 검색하는 것과 달리, SEA는 연속적인 잠재 공간에서 기울기 기반 샘플링을 통해 기본 정책의 원래 응답을 최적의 응답으로 직접 적응시킵니다. 이는 에너지 함수에 대한 반복적인 최적화 절차로써 추론을 공식화하여 단순하면서도 효과적인 정렬을 가능하게 합니다. 실험 결과, SEA는 AdvBench에서 최고 성능 기준 대비 최대 77.51%, MATH에서 16.36%의 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
연속적인 잠재 공간에서의 기울기 기반 샘플링을 통해 기존의 이산적인 응답 공간 검색의 한계를 극복.