Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM

Created by
  • Haebom
Category
Empty

저자

Yibai Liu, Shihang Wang, Zeming Liu, Zheming Song, Junzhe Wang, Jingjing Liu, Qingjie Liu, Yunhong Wang

개요

대규모 언어 모델(LLM)은 다양한 분야에서 뛰어난 성과를 거두었지만, 특정 도메인에 맞게 모델을 조정하기 위해 지도 학습 기반 미세 조정(SFT)이 여전히 중요합니다. 그러나 도메인 전문화를 위한 SFT는 리소스 집약적이며, 치명적 망각(CF)으로 인해 일반적인 성능 저하를 초래할 수 있습니다. 이 문제를 해결하기 위해, 예비 학습 단계에서 얻은 기울기를 분석하여 효과적인 훈련 데이터 하위 집합을 식별하는 SFT를 위한 자체 적응형 기울기 인식 데이터 선택 접근 방식(GrADS)을 제안합니다. GrADS는 모델의 학습 과정에 가장 크게 기여하는 예제를 우선시하기 위해 기울기의 크기와 통계적 분포를 활용하는 자체 안내 기준을 설계합니다. GrADS는 다양한 도메인에서 다양한 LLM을 대상으로 광범위한 실험을 통해 효율성과 비용 효율성을 입증했습니다. GrADS 데이터의 5%만 사용해도 전체 데이터 세트에 대해 미세 조정된 모델보다 성능이 우수하며, 데이터를 50%까지 늘리면 성능이 크게 향상됩니다. 동시에 치명적 망각도 완화됩니다.

시사점, 한계점

GrADS는 LLM의 지도 학습 기반 미세 조정을 위한 효율적인 데이터 선택 방법을 제공합니다.
기울기 분석을 통해 훈련 데이터의 하위 집합을 식별하여 계산 비용을 절감합니다.
다양한 도메인에서 LLM의 성능을 향상시키는 데 효과적입니다.
치명적 망각 문제를 완화합니다.
GrADS 코드의 공개가 예정되어 있습니다.
본 논문에서는 구체적인 GrADS 알고리즘에 대한 자세한 내용을 제공하지 않습니다.
실험에 사용된 특정 LLM 및 도메인에 대한 자세한 정보가 필요할 수 있습니다.
다른 데이터 선택 방법과의 비교 결과가 명시적으로 제시되지 않았습니다.
👍