SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models
Created by
Haebom
Category
Empty
저자
Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
개요
본 논문은 지시사항 따르기를 향상시키기 위한 새로운 자기 대결 프레임워크인 SPaR을 제안합니다. 기존의 선호도 학습 방식이 모델의 여러 독립적인 응답을 샘플링하여 비교하는 과정에서 지시사항 준수 여부와 무관한 내용 차이를 발생시키는 문제점을 지적합니다. SPaR은 트리 탐색 기반의 자기 개선을 통해 지시사항에 대한 응답을 정제하고 불필요한 변화를 최소화하여 유효하고 비교 가능한 선호도 쌍을 생성합니다. 실험 결과, SPaR로 훈련된 LLaMA3-8B 모델은 IFEval 벤치마크에서 GPT-4-Turbo를 능가하며, GLM-4-9B 및 LLaMA3-70B 모델의 성능도 크게 향상시켰습니다. 또한 트리 탐색에서 추론 스케일링이 모델 성능에 미치는 영향을 분석했습니다. 코드와 데이터는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
기존 선호도 학습의 한계를 극복하는 새로운 자기 대결 프레임워크 SPaR 제시.
◦
LLaMA3-8B 모델이 GPT-4-Turbo를 IFEval 벤치마크에서 능가하는 성능 달성.