Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning

Created by
  • Haebom

저자

Jucheng Hu, Surong Yang, Lijun Wu, Dongzhan Zhou

개요

본 논문은 대규모 언어 모델(LLM)의 도메인 특화 적응을 위한 임시 지시 미세 조정에서 도메인 특화 지도 학습(SFT)의 효율성과 교차 도메인 일반화의 어려움 및 잡음이 많은 훈련 데이터 문제를 해결하기 위해 경량 모델 내재적 데이터 가지치기 방법인 DONOD를 제안합니다. DONOD는 모델 파라미터 기반 지표인 Delta of Norm (DON)과 Norm of Delta (NOD)를 사용하여 데이터를 평가하고, TOPSIS 알고리즘을 통해 잡음이 많고 학습이 불가능하며 일반화를 저해하는 샘플을 효과적으로 필터링합니다. 수학적 과제에 대한 실험 결과, DONOD에 의해 선택된 데이터는 향상된 미세 조정 효율성과 잡음에 대한 강건성을 달성하며, 데이터셋의 70%를 제거했음에도 불구하고 목표 도메인 정확도는 14.90%, 교차 도메인 정확도는 5.67% 향상되었습니다. 또한, 소규모 모델(예: Llama 3.1-8B)에 의해 가지치기된 데이터는 대규모 모델(예: Llama 2-13B)에서도 효과적으로 일반화됩니다. 기존 방법과 비교하여 DONOD는 데이터셋에 독립적이며 우수하거나 동등한 성능을 보입니다. 코드는 공개될 예정입니다.

시사점, 한계점

시사점:
모델 내재적 지표를 활용한 데이터 가지치기를 통해 SFT의 효율성과 잡음에 대한 강건성을 향상시킬 수 있음을 보여줌.
소규모 모델에서 가지치기된 데이터가 대규모 모델에서도 효과적으로 일반화됨을 확인.
기존 방법 대비 우수하거나 동등한 성능을 보이며, 데이터셋에 독립적인 방법론 제시.
한계점:
제안된 방법의 효과가 수학적 과제에 국한되어 다른 도메인에서의 일반화 가능성은 추가 연구 필요.
TOPSIS 알고리즘의 매개변수 설정에 대한 민감도 분석 및 최적화 전략에 대한 추가 연구 필요.
공개된 코드의 실제 성능 및 사용 편의성에 대한 검증 필요.
👍