Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

작성자

Haebom

카테고리

Empty

저자

Ziqing Wen, Zhouyang Liu, Jiahuan Wang, Ping Luo, Li Shen, Dongsheng Li, Tao Sun

💡 개요

본 논문은 대규모 언어 모델(LLM)의 이질적인 모듈 구조로 인해 발생하는 최적화의 어려움을 다룹니다. 기존 Adam 최적화기는 파라미터 수준의 적응성은 제공하지만, 모듈 수준의 기울기 이질성을 고려하지 못해 성능 저하 및 불안정성을 야기합니다. 이에 본 연구에서는 모듈별 신호 대 잡음비(SNR)를 추정하여 Adam 업데이트를 조정하는 MoLS(Module-wise Learning Rate Scaling via SNR) 방법론을 제안하며, 이는 수동 튜닝 없이 자동화된 모듈별 학습률 할당을 가능하게 합니다.

🔑 시사점 및 한계

•

LLM의 모듈별 최적화 불균형을 신호 대 잡음비(SNR)를 통해 정량화하고 이를 해결할 수 있는 자동화된 방법론(MoLS)을 제시합니다.

•

MoLS는 수동 튜닝 없이도 기존 모듈별 학습률 튜닝과 유사한 성능을 달성하며, 메모리 효율적인 학습 알고리즘과도 호환됩니다.

•

본 연구는 LLM 학습 시 모듈 수준의 최적화 문제를 해결하는 새로운 방향을 제시하지만, 다양한 LLM 아키텍처 및 작업에 대한 MoLS의 일반화 성능에 대한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage