ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning
Created by
Haebom
저자
Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu
개요
본 논문은 대규모 언어 모델(LLM)의 과제 특화 지시어 미세조정을 위한 데이터 선택 문제에 초점을 맞추고 있습니다. 기존 방법들은 주로 제작된 유사성 척도에 의존하여 테스트 데이터 분포와 일치하는 훈련 데이터를 선택하는 데 중점을 두었으나, LLM의 지시어 미세조정 손실(다음 토큰 예측을 위한 교차 엔트로피 손실)이 실제 과제 성능과 단조로운 관계를 보이지 않는다는 점을 지적합니다. 이러한 불일치를 해결하기 위해, 본 논문은 쌍방향 선호도 손실을 보상 신호로 활용하여 과제 특화 지시어 미세조정을 위한 데이터 선택을 최적화하는 새로운 방법인 ROSE(Reward-Oriented inStruction data sElection)를 제시합니다. ROSE는 몇 가지 선호도 검증 세트에 대한 훈련 데이터 포인트의 영향을 근사하기 위해 영향 공식을 적용하여 과제와 가장 관련된 훈련 데이터 포인트를 선택합니다. 실험 결과, ROSE를 사용하여 훈련 데이터의 5%만 선택하더라도 전체 훈련 데이터셋으로 미세 조정하는 것과 비교하여 경쟁력 있는 결과를 얻을 수 있으며, 기존 최첨단 데이터 선택 방법을 능가함을 보여줍니다. 정성적 분석을 통해 여러 벤치마크 데이터셋과 다양한 모델 아키텍처에서 방법의 견고한 일반화 가능성을 확인했습니다.