Sign In

MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

Created by
  • Haebom
Category
Empty

저자

Yuxi Liu, Renjia Deng, Yutong He, Xue Wang, Tao Yao, Kun Yuan

개요

대규모 언어 모델(LLM)의 메모리 효율적인 최적화를 위해, 각 변환기 블록을 하나의 레이어로 취급하여 순차적으로 최적화하는 레이어별 최적화 방식의 한계를 극복하고자, 각 레이어를 더 작은 모듈로 나누고 각 모듈에 중요도 점수를 할당하는 새로운 방법인 Module-wise Importance SAmpling (MISA)를 제안합니다. MISA는 가중 무작위 샘플링 메커니즘을 사용하여 모듈을 활성화하고, 레이어별 샘플링에 비해 그래디언트 분산을 줄입니다. 또한 비볼록 및 확률적 조건에서 \mathcal{O}(1/\sqrt{K}) 수렴 속도를 보장하며, MISA의 메모리 효율성을 분석하고 다양한 학습 작업에 대한 실험을 통해 MISA의 효과를 입증합니다.

시사점, 한계점

시사점:
MISA는 레이어 내 모듈의 중요도에 기반한 가중 샘플링을 통해 메모리 효율성을 향상시킵니다.
레이어별 샘플링 대비 그래디언트 분산 감소를 보장합니다.
비볼록 및 확률적 조건에서 \mathcal{O}(1/\sqrt{K}) 수렴 속도를 제공합니다.
다양한 학습 작업에 대한 효과를 실험적으로 검증했습니다.
한계점:
논문에 구체적인 한계점은 명시되어 있지 않음.
👍