Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Parameter Efficient Fine-tuning via Explained Variance Adaptation

Created by
  • Haebom

저자

Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter

개요

본 논문은 대규모 데이터셋으로 사전 훈련된 후 특정 하위 작업에 대해 미세 조정되는 기초 모델(Foundation Models, FMs)에 대한 연구를 다룬다. 기존의 저랭크 적응(LoRA) 기반 미세 조정 방법은 기울기 또는 가중치 행렬의 특이값 분해(SVD)에 의존하는 초기화 전략을 사용하지만, 빠른 적응에 중요한 기대 기울기 신호를 증대시키지 못한다는 한계를 지닌다. 본 논문에서는 기대 기울기 신호를 증대시켜 미세 조정 속도를 높이는 초기화 계획인 설명된 분산 적응(Explained Variance Adaptation, EVA)을 제시한다. EVA는 활성화 벡터의 미니 배치에 대한 증분 SVD를 수행하고, 수렴된 후 우특이 벡터를 초기화에 선택한다. 또한 주어진 랭크 예산에 대해 가장 많은 활성화 분산을 포착하는 방향을 선택하여, 훈련 가능한 매개변수의 수를 줄이면서 하위 작업 성능을 유지하거나 개선하는 적응형 랭크를 수용한다. 다양한 미세 조정 작업(자연어 생성 및 이해, 이미지 분류, 강화 학습)에 EVA를 적용한 결과, 경쟁 방법보다 빠른 수렴 속도를 보였으며, 도메인별 다양한 작업에서 평균 점수가 가장 높았고 랭크 재분배를 통해 훈련 가능한 매개변수의 수를 줄였다.

시사점, 한계점

시사점:
기존 LoRA 초기화 전략의 한계를 극복하는 새로운 초기화 방법인 EVA 제시.
기대 기울기 신호를 증대시켜 미세 조정 속도를 향상시킴.
적응형 랭크를 통해 훈련 가능한 매개변수의 수를 줄이면서 성능 유지 또는 개선.
자연어 처리, 이미지 분류, 강화 학습 등 다양한 분야에서 효과 검증.
한계점:
EVA의 성능 향상이 모든 작업과 하이퍼파라미터 설정에 대해 일관되게 나타나는지 추가적인 실험이 필요할 수 있음.
매우 큰 모델이나 데이터셋에 대한 적용 가능성 및 효율성에 대한 추가 연구 필요.
특정 유형의 데이터 또는 작업에 대해서는 다른 방법보다 효과가 덜할 수 있음.
👍