Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Merge to Mix: Mixing Datasets via Model Merging

Created by
  • Haebom

저자

Zhixu Silvia Tao, Kasper Vinken, Hao-Wei Yeh, Avi Cooper, Xavier Boix

개요

본 논문은 대규모 언어 모델(LMs)의 성능을 극대화하기 위해 다양한 데이터셋을 혼합하여 미세 조정하는 과정에서 효율적인 데이터셋 조합을 찾는 데 어려움이 있음을 지적합니다. 기존의 방법들은 휴리스틱과 시행착오를 통해 최적의 조합을 찾아야 하므로 여러 번의 미세 조정이 필요합니다. 이에 본 논문은 $\textit{Merge to Mix}$ 라는 새로운 방법을 제안합니다. $\textit{Merge to Mix}$는 여러 개의 개별적으로 미세 조정된 LMs를 간단한 산술 연산을 통해 하나의 LM으로 결합하는 모델 병합 기술을 활용하여, 각 데이터셋으로 개별 미세 조정된 모델들을 병합함으로써 전체 데이터셋 혼합으로 미세 조정된 모델을 효과적으로 대체합니다. 이를 통해 각 후보 혼합에 대한 완전한 미세 조정 없이 데이터셋 혼합을 빠르게 선택할 수 있습니다. 실험 결과, $\textit{Merge to Mix}$는 기존의 최첨단 방법보다 LMs 미세 조정을 위한 데이터셋 선택에서 우수한 성능을 보입니다.

시사점, 한계점

시사점:
모델 병합 기술을 활용하여 데이터셋 혼합 과정의 효율성을 크게 향상시켰습니다.
다양한 데이터셋을 혼합하여 LMs를 미세 조정하는 과정에서 시간 및 자원 소모를 줄일 수 있습니다.
기존의 시행착오 방식보다 우수한 데이터셋 선택 성능을 보였습니다.
한계점:
모델 병합의 성능이 개별 모델의 성능에 의존적일 수 있습니다.
특정 유형의 데이터셋 혼합에 대해서는 효과가 제한적일 수 있습니다.
모델 병합 과정 자체의 계산 비용에 대한 분석이 부족할 수 있습니다.
👍