[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy

Created by
  • Haebom

저자

Yiting Yang, Hao Luo, Yuan Sun, Qingsen Yan, Haokui Zhang, Wei Dong, Guoqing Wang, Peng Wang, Yang Yang, Hengtao Shen

개요

본 논문은 Vision Transformer (ViT)의 Parameter-Efficient Fine-Tuning (PEFT)에서 주로 사용되는 저차원 적응 가중치 행렬(LoRA, Adapter 등)의 한계를 지적하고, 개선된 방법을 제시합니다. 기존 방법들은 사전 학습된 백본 매개변수의 근사 직교성을 저차원 행렬에 반영하지 못하는데, 이는 일반화 성능 저하의 원인이 됩니다. 본 논문에서는 하나의 학습 가능한 벡터를 이용하여 근사 직교 벡터들을 생성하여 저차원 행렬을 구성하는 Approximately Orthogonal Fine-Tuning (AOFT) 전략을 제안합니다. 이를 통해 사전 학습된 백본 매개변수와 유사한 성질을 저차원 행렬에 부여하여 일반화 성능을 향상시키고, 다양한 이미지 분류 작업에서 경쟁력 있는 성능을 달성함을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
사전 학습된 ViT 백본의 근사 직교성을 저차원 적응 행렬에 적용하면 일반화 성능을 향상시킬 수 있음을 보여줌.
AOFT 전략을 통해 PEFT의 성능을 개선하고 경쟁력 있는 결과를 달성 가능함을 증명.
단일 학습 가능한 벡터를 이용한 효율적인 근사 직교 행렬 생성 방법 제시.
한계점:
제안된 AOFT 전략의 효과가 이미지 분류 작업에 국한되어 다른 비전 작업으로의 일반화 가능성은 추가 연구가 필요함.
근사 직교성이 일반화 성능 향상에 미치는 영향에 대한 이론적 분석이 부족함.
다른 PEFT 방법들과의 비교 분석이 더욱 심도 있게 진행될 필요가 있음.
👍