대규모 언어 모델(LLM)은 다중 도메인 데이터셋으로 훈련되는데, 하위 작업에서 도메인 중요도가 다르기 때문에 도메인 샘플링 전략이 모델 성능에 상당한 영향을 미칩니다. 기존의 도메인 수준 샘플링 전략 최적화 접근 방식은 도메인 내 일관성을 유지하고 도메인 영향을 정확하게 측정하는 데 어려움을 겪습니다. 본 논문에서는 도메인 영향 인식 데이터 샘플링(DIDS)을 제시합니다. 도메인 내 일관성을 보장하기 위해, 학습 효과를 기반으로 훈련 데이터를 그룹화하는 그래디언트 클러스터링 알고리즘을 제안하며, 프록시 언어 모델과 차원 축소를 사용하여 계산 오버헤드를 줄입니다. 도메인 영향을 정확하게 측정하기 위해, 도메인 특정 매개변수 업데이트가 하위 작업에서 모델의 출력 분포에 어떻게 영향을 미치는지 정량화하는 피셔 정보 행렬(FIM) 기반 지표를 개발하며, 이론적 보장을 제공합니다. 또한 최적의 샘플링 비율을 결정하기 위해, DIDS는 감소하는 한계 수익을 고려하면서 FIM 기반 도메인 영향 평가와 도메인 특정 잠재력을 나타내는 손실 학습 경로를 결합합니다. 광범위한 실험을 통해 DIDS가 비교 가능한 훈련 효율성을 유지하면서 평균 성능을 3.4% 향상시키는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
도메인 내 일관성을 유지하면서 도메인 중요도를 정확하게 측정하는 새로운 도메인 샘플링 전략(DIDS) 제시.
◦
그래디언트 클러스터링 및 FIM 기반 지표를 활용하여 계산 효율성과 정확성을 향상.
◦
감소하는 한계 수익을 고려하여 최적의 샘플링 비율 결정.
◦
실험을 통해 기존 방법 대비 3.4% 향상된 성능을 입증.
•
한계점:
◦
프록시 언어 모델과 차원 축소 사용으로 인한 정확도 저하 가능성.
◦
FIM 기반 지표의 이론적 보장은 특정 가정에 의존할 수 있음.
◦
실험 결과는 특정 데이터셋과 하위 작업에 국한될 수 있음. 다양한 데이터셋과 작업에 대한 추가적인 실험 필요.