Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Activation-Informed Merging of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Amin Heyrani Nobari, Kaveh Alim, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

개요

본 논문은 여러 미세 조정된 대규모 언어 모델(LLM)의 매개변수와 임베딩을 결합하는 모델 병합 기법에 Activation-Informed Merging(AIM)을 도입한다. AIM은 LLM의 활성화 공간 정보를 병합 과정에 통합하여 성능과 견고성을 향상시키는 유연한 보완 솔루션으로, 기존 병합 방법에 적용 가능하다. 지속적 학습(CL) 및 모델 압축 원리를 활용하여 기본 모델의 중요한 가중치를 보존하고, 과제에 독립적인 보정 집합을 사용하여 병합 시 필수 가중치를 선택적으로 우선시한다. AIM은 다양한 벤치마크에서 병합 모델의 성능을 크게 향상시켰으며, 활성화 공간 정보를 고려하면 LLM 모델 병합 전략에서 최대 40%의 벤치마크 성능 향상을 가져올 수 있음을 입증했다.

시사점, 한계점

활성화 공간 정보를 활용한 모델 병합 기법 AIM 제안
기존 병합 방법에 적용 가능한 유연성
다양한 벤치마크에서 성능 향상 입증 (최대 40%)
지속적 학습 및 모델 압축 원리 활용
과제 독립적인 보정 집합 사용
한계점: 구체적인 한계점은 논문 요약에서 명시되지 않음.
👍