Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

개요

본 논문은 지시사항 따르기를 향상시키기 위한 새로운 자기 대결 프레임워크인 SPaR을 제안합니다. 기존의 선호도 학습 방식이 모델의 여러 독립적인 응답을 샘플링하여 비교하는 과정에서 지시사항 준수 여부와 무관한 내용 차이를 발생시키는 문제점을 지적합니다. SPaR은 트리 탐색 기반의 자기 개선을 통해 지시사항에 대한 응답을 정제하고 불필요한 변화를 최소화하여 유효하고 비교 가능한 선호도 쌍을 생성합니다. 실험 결과, SPaR로 훈련된 LLaMA3-8B 모델은 IFEval 벤치마크에서 GPT-4-Turbo를 능가하며, GLM-4-9B 및 LLaMA3-70B 모델의 성능도 크게 향상시켰습니다. 또한 트리 탐색에서 추론 스케일링이 모델 성능에 미치는 영향을 분석했습니다. 코드와 데이터는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
기존 선호도 학습의 한계를 극복하는 새로운 자기 대결 프레임워크 SPaR 제시.
LLaMA3-8B 모델이 GPT-4-Turbo를 IFEval 벤치마크에서 능가하는 성능 달성.
GLM-4-9B 및 LLaMA3-70B 등 다른 모델의 성능도 크게 향상.
트리 탐색에서 추론 스케일링의 영향 분석을 통해 향후 연구 방향 제시.
코드와 데이터 공개를 통한 연구의 재현성 및 확장성 확보.
한계점:
SPaR의 효과가 특정 모델과 벤치마크에 국한될 가능성.
트리 탐색의 계산 비용 증가 문제.
추론 스케일링에 대한 분석이 더욱 심도있는 연구를 필요로 함.
👍