Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models

Created by
  • Haebom

저자

Ionut-Vlad Modoranu, Mher Safaryan, Erik Schultheis, Max Ryabinin, Artem Chumachenko, Dan Alistarh

개요

본 논문은 대규모 언어 모델(LLM) 훈련의 실행 시간을 개선하고 적응적 최적화기의 메모리 사용량을 줄이기 위해 저차원 공간으로 학습을 제한하는 저랭크 최적화를 제안합니다. 기존 연구는 특이값 분해(SVD) 또는 QR 분해를 기반으로 선형 계층의 기울기를 투영했지만, 각 계층에 개별적으로 적용하는 것은 계산 비용이 많이 들고 투영 행렬을 저장하기 위해 추가 메모리 비용이 발생합니다. 이 연구에서는 이산 코사인 변환(DCT)의 미리 정의된 직교 행렬을 사용하여 SVD/QR 기반 기울기 투영을 저차원 공간으로 근사하는 계산 효율적이고 간단한 2단계 절차를 제안합니다. DCT 행렬에서 각 계층의 기울기와 정렬된 열을 동적으로 선택하며, 효과적인 투영 행렬은 O(n³) 시간에 DCT 행렬과의 간단한 matmul을 통해 얻어지고, 가장 관련 있는 기저 벡터를 식별하기 위한 경량 정렬 단계가 뒤따릅니다. 대형 계층의 경우, DCT는 고속 푸리에 변환(FFT)을 기반으로 하는 Makhoul의 N-point 알고리즘을 사용하여 O(n²log(n)) 시간에 계산할 수 있습니다. 직교 기저의 미리 정의된 특성으로 인해 훈련 시작 시 한 번 계산됩니다. 사전 훈련 및 미세 조정 작업에 대한 실험 결과는 랭크에 독립적인 실행 시간을 얻으면서 비용이 많이 드는 SVD/QR 기반 방법과 일치하는 성능을 보이며, 다양한 모델 크기에서 최대 25% 더 빠른 실행 시간과 메모리 사용량 감소를 달성함을 보여줍니다.

시사점, 한계점

시사점:
SVD/QR 기반 기울기 투영을 근사하는 계산 효율적인 방법 제안.
DCT를 활용하여 훈련 시간 및 메모리 사용량 감소.
랭크 독립적인 실행 시간 달성.
SVD/QR 기반 방법과 유사한 성능을 보임.
한계점:
구체적인 한계점은 논문 내용에 명시되지 않음. (요약본에 나타나지 않음)
👍