본 논문은 Vision Transformer (ViT)의 Parameter-Efficient Fine-Tuning (PEFT)에서 주로 사용되는 저차원 적응 가중치 행렬(LoRA, Adapter 등)의 한계를 지적하고, 개선된 방법을 제시합니다. 기존 방법들은 사전 학습된 백본 매개변수의 근사 직교성을 저차원 행렬에 반영하지 못하는데, 이는 일반화 성능 저하의 원인이 됩니다. 본 논문에서는 하나의 학습 가능한 벡터를 이용하여 근사 직교 벡터들을 생성하여 저차원 행렬을 구성하는 Approximately Orthogonal Fine-Tuning (AOFT) 전략을 제안합니다. 이를 통해 사전 학습된 백본 매개변수와 유사한 성질을 저차원 행렬에 부여하여 일반화 성능을 향상시키고, 다양한 이미지 분류 작업에서 경쟁력 있는 성능을 달성함을 실험적으로 보여줍니다.
시사점, 한계점
•
시사점:
◦
사전 학습된 ViT 백본의 근사 직교성을 저차원 적응 행렬에 적용하면 일반화 성능을 향상시킬 수 있음을 보여줌.
◦
AOFT 전략을 통해 PEFT의 성능을 개선하고 경쟁력 있는 결과를 달성 가능함을 증명.
◦
단일 학습 가능한 벡터를 이용한 효율적인 근사 직교 행렬 생성 방법 제시.
•
한계점:
◦
제안된 AOFT 전략의 효과가 이미지 분류 작업에 국한되어 다른 비전 작업으로의 일반화 가능성은 추가 연구가 필요함.