Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mixtures of SubExperts for Large Language Continual Learning

Created by
  • Haebom
Category
Empty

저자

Haeyong Kang

개요

본 논문은 대규모 언어 모델(LLM)을 지속적인 작업 흐름에 적응시키는 문제를 해결하기 위해, 최소한의 망각과 효율적인 확장성을 갖춘 새로운 지속 학습 프레임워크인 \textit{Mixtures of SubExperts (MoSEs)}를 제안합니다. MoSEs는 변환기 레이어에 희소 Mixture of SubExperts를 통합하고 작업별 라우팅 메커니즘을 사용하여 지식을 격리하고 보호하여 매개변수 간섭 및 치명적인 망각을 최소화합니다. 또한, 라우터는 새로운 작업을 위해 이전에 학습된 희소 매개변수를 적응적으로 선택하고 결합하여 효과적인 지식 전달을 가능하게 하며, 모델 용량이 서브선형적으로 증가하도록 보장합니다. TRACE 벤치마크 데이터셋에서 MoSEs를 평가한 결과, MoSEs는 기존의 지속 학습 방식보다 지식 유지 및 새로운 작업에 대한 확장성 모두에서 우수한 성능을 보였으며, 상당한 메모리 및 계산 절감 효과와 함께 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
새로운 지속 학습 프레임워크 MoSEs 제안.
지식 보존 및 확장성에서 기존 방법보다 뛰어난 성능.
메모리 및 계산 비용 절감.
작업별 라우팅 메커니즘을 통한 효과적인 지식 전달.
한계점:
논문에서 구체적인 한계점 언급되지 않음. (논문 내용을 기반으로 작성)
👍