Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning

Created by
  • Haebom

저자

Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu

개요

본 논문은 대규모 언어 모델(LLM)의 과제 특화 지시어 미세조정을 위한 데이터 선택 문제에 초점을 맞추고 있습니다. 기존 방법들은 주로 제작된 유사성 척도에 의존하여 테스트 데이터 분포와 일치하는 훈련 데이터를 선택하는 데 중점을 두었으나, LLM의 지시어 미세조정 손실(다음 토큰 예측을 위한 교차 엔트로피 손실)이 실제 과제 성능과 단조로운 관계를 보이지 않는다는 점을 지적합니다. 이러한 불일치를 해결하기 위해, 본 논문은 쌍방향 선호도 손실을 보상 신호로 활용하여 과제 특화 지시어 미세조정을 위한 데이터 선택을 최적화하는 새로운 방법인 ROSE(Reward-Oriented inStruction data sElection)를 제시합니다. ROSE는 몇 가지 선호도 검증 세트에 대한 훈련 데이터 포인트의 영향을 근사하기 위해 영향 공식을 적용하여 과제와 가장 관련된 훈련 데이터 포인트를 선택합니다. 실험 결과, ROSE를 사용하여 훈련 데이터의 5%만 선택하더라도 전체 훈련 데이터셋으로 미세 조정하는 것과 비교하여 경쟁력 있는 결과를 얻을 수 있으며, 기존 최첨단 데이터 선택 방법을 능가함을 보여줍니다. 정성적 분석을 통해 여러 벤치마크 데이터셋과 다양한 모델 아키텍처에서 방법의 견고한 일반화 가능성을 확인했습니다.

시사점, 한계점

시사점:
과제 특화 지시어 미세조정을 위한 효율적인 데이터 선택 방법인 ROSE 제시.
기존 방법의 한계점인 지시어 미세조정 손실과 실제 과제 성능 간의 불일치 문제 해결.
소량의 데이터만으로도 전체 데이터셋을 사용한 미세조정과 유사한 성능 달성.
다양한 데이터셋과 모델 아키텍처에서 견고한 성능 입증.
한계점:
ROSE의 성능은 선호도 검증 세트의 질에 의존할 수 있음.
특정 과제 또는 모델 아키텍처에 대한 일반화 성능을 더욱 폭넓게 검증할 필요가 있음.
쌍방향 선호도 손실을 보상 신호로 사용하는 것이 항상 최적인지에 대한 추가 연구 필요.
👍