대규모 언어 모델(LLM)의 메모리 효율적인 최적화를 위해, 각 변환기 블록을 하나의 레이어로 취급하여 순차적으로 최적화하는 레이어별 최적화 방식의 한계를 극복하고자, 각 레이어를 더 작은 모듈로 나누고 각 모듈에 중요도 점수를 할당하는 새로운 방법인 Module-wise Importance SAmpling (MISA)를 제안합니다. MISA는 가중 무작위 샘플링 메커니즘을 사용하여 모듈을 활성화하고, 레이어별 샘플링에 비해 그래디언트 분산을 줄입니다. 또한 비볼록 및 확률적 조건에서 \mathcal{O}(1/\sqrt{K}) 수렴 속도를 보장하며, MISA의 메모리 효율성을 분석하고 다양한 학습 작업에 대한 실험을 통해 MISA의 효과를 입증합니다.