Memory-Efficient Fine-Tuning via Low-Rank Activation Compression

작성자

Haebom

카테고리

Empty

저자

Jiang-Xin Shi, Wen-Da Wei, Jin-Fei Qi, Xuanyu Chen, Tong Wei, Yu-Feng Li

개요

파운데이션 모델의 발전에 따라 매개변수 효율적인 미세 조정 패러다임이 주목받고 있지만, 훈련 가능한 매개변수 수를 줄이는 여러 방법에도 불구하고 메모리 오버헤드가 실질적인 배포를 가로막는 병목 현상으로 남아있다. 본 논문에서는 모델 활성화가 특히 큰 배치 크기와 긴 컨텍스트 길이에서 메모리 소비의 주요 원인이며, 활성화의 랭크가 일관적으로 낮다는 것을 관찰했다. 이 통찰력을 바탕으로, 온라인 정방향 패스 중에 보정 데이터 없이 적용할 수 있는 유연하고 다재다능한 압축 전략인 메모리 효율적인 미세 조정 방법인 LoRAct (Low-Rank Activation Compression)를 제안한다. 또한, LoRAct는 널리 사용되는 RSVD에 비해 계산 효율성을 향상시키고 더 엄격한 오류 범위를 제공하는 저랭크 행렬용으로 특별히 설계된 새로운 샘플링 기반 직교 분해 알고리즘을 통합한다. 시각 및 언어 작업에 대한 실험 결과, LoRAct가 효과적임을 입증했으며, 널리 사용되는 LoRA 방법과 비교하여 활성화 메모리를 약 80% 더 줄이면서 경쟁력 있는 성능을 유지했다.

시사점, 한계점

•

시사점:

◦

모델 활성화의 저랭크 특성을 활용하여 메모리 효율적인 미세 조정 방식을 제안.

◦

온라인 압축을 통해 추가적인 보정 데이터 없이 유연하게 적용 가능.

◦

새로운 샘플링 기반 직교 분해 알고리즘을 통해 계산 효율성 및 오류 범위 개선.

◦

LoRA 대비 활성화 메모리를 80% 추가 절감하면서 경쟁력 있는 성능 유지.

•

한계점:

◦

논문에 구체적인 한계점에 대한 언급은 없음. (Abstract 기반)

PDF 보기

Made with Slashpage