Sign In

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Created by
  • Haebom
Category
Empty

저자

Yisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

개요

본 논문은 대규모 언어 모델(LLM)의 지시사항 따르기 능력을 작은 모델에 증류하는 기존 방법의 한계를 지적하며, 다양한 신호를 활용하여 지시사항-응답 쌍의 특징을 포착하는 새로운 지표들을 제안합니다. 기존 방법들이 단일 차원 신호(보상 점수, 모델 perplexity)에 의존하는 것과 달리, 본 논문에서는 다양한 LLM 응답과 보상 모델 평가를 활용한 세 가지 기본 지표를 제시합니다. 이를 바탕으로 응답 다양성을 유지하는 클러스터링 기반 접근 방식을 통합한 CrowdSelect 지표를 제안합니다. 실험 결과, 제안된 기본 지표들은 다양한 기본 모델에서 MT-bench와 Arena-Hard 벤치마크에서 성능 향상을 보였으며, CrowdSelect는 Full 및 LoRA fine-tuning 모두에서 최첨단 성능을 달성했습니다. 특히 Llama-3.2-3b-instruct 모델에서 Arena-Hard는 4.81%, MT-bench는 11.1%의 성능 향상을 보였습니다.

시사점, 한계점

시사점:
다양한 신호를 활용한 지표 개발을 통해 기존 단일 지표 기반 방법의 한계를 극복.
CrowdSelect 지표를 통해 LLM 지시사항 따르기 능력 증류 성능 향상.
MT-bench와 Arena-Hard에서의 실험 결과를 통해 제안된 방법의 효과성 검증.
다양한 기본 모델과 fine-tuning 방법에서의 성능 향상 확인.
공개된 코드를 통해 재현성 및 추가 연구 가능성 제시.
한계점:
제안된 지표의 일반화 가능성에 대한 추가 연구 필요.
다양한 LLM 및 데이터셋에 대한 실험이 추가적으로 필요.
클러스터링 기반 접근 방식의 매개변수 최적화에 대한 추가 연구 필요.
계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍