Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Orthogonal Finetuning Made Scalable

Created by
  • Haebom

저자

Zeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Scholkopf

개요

본 논문은 직교 미세조정(OFT)의 높은 계산 비용과 메모리 사용량 문제를 해결하기 위해 OFTv2를 제안합니다. OFTv2는 기존 OFT의 가중치 중심 구현 방식 대신 입력 중심 방식을 채택하여 행렬-벡터 곱셈을 사용함으로써 계산 복잡도를 3차에서 2차로 줄입니다. 또한, 케일리 변환에서 행렬 역행렬을 근사하는 효율적인 직교 매개변수화 방법인 케일리-노이만 매개변수화를 도입합니다. 이러한 개선을 통해 OFTv2는 성능 저하 없이 최대 10배 빠른 학습 속도와 3배 낮은 GPU 메모리 사용량을 달성합니다. 추가적으로, 양자화된 기초 모델의 미세조정을 지원하며, QLoRA보다 뛰어난 학습 안정성, 효율성 및 메모리 사용량을 보여줍니다.

시사점, 한계점

시사점:
OFT의 계산 비용 및 메모리 사용 문제를 효과적으로 해결하는 OFTv2 알고리즘 제시
행렬-벡터 곱셈을 이용한 입력 중심 방식으로 계산 복잡도 감소
케일리-노이만 매개변수화를 통한 효율적인 직교 매개변수화
양자화된 기초 모델 미세조정 지원 및 QLoRA 대비 성능 향상
10배 빠른 학습 속도 및 3배 낮은 GPU 메모리 사용 달성
한계점:
케일리-노이만 매개변수화가 행렬 역행렬을 근사하는 방법이므로, 근사 오차에 따른 성능 저하 가능성 존재
제안된 방법의 효율성은 특정 문제 및 모델에 따라 달라질 수 있음
대규모 모델에 대한 실험 결과가 제한적일 수 있음
👍