Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SiNGER: A Clearer Voice Distills Vision Transformers Further

Created by
  • Haebom

저자

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi, Jaeseung Kim, Hyoseok Hwang

Vision Transformer 기반 모델의 고차원 아티팩트 문제 해결을 위한 SiNGER (Singular Nullspace-Guided Energy Reallocation)

개요

본 논문은 Vision Transformer 기반 모델의 특징에서 발생하는 고차원 아티팩트 문제와 이를 해결하기 위한 새로운 증류 프레임워크인 SiNGER (Singular Nullspace-Guided Energy Reallocation)를 제안합니다. Vision Transformer는 비전 분야에서 널리 사용되지만, 고차원 아티팩트를 생성하여 표현 품질을 저하시키는 문제가 있습니다. 지식 증류 과정에서 이러한 아티팩트가 학생 모델에 영향을 미쳐, 유용한 신호보다 아티팩트에 과적합되는 문제를 야기합니다. SiNGER는 교사 특징 정제를 통해 아티팩트를 억제하면서 유용한 신호를 보존하는 것을 목표로 합니다. 특히, nullspace-guided perturbation을 활용하여 정보를 보존하고, LoRA 기반 어댑터를 통해 효율적으로 구현됩니다. 다양한 실험을 통해 SiNGER가 학생 모델의 성능을 향상시키고, 여러 다운스트림 태스크에서 최첨단 성능을 달성하며, 보다 명확하고 해석 가능한 표현을 생성함을 입증했습니다.

시사점, 한계점

시사점:
고차원 아티팩트 문제를 해결하여 Vision Transformer 기반 모델의 지식 증류 효율성을 향상시켰습니다.
아티팩트 억제와 정보 보존 사이의 trade-off 문제를 해결하는 새로운 프레임워크를 제시했습니다.
LoRA 기반 어댑터를 활용하여 효율적인 구현을 가능하게 했습니다.
여러 다운스트림 태스크에서 SOTA 성능을 달성했습니다.
모델의 해석 가능성을 높였습니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 포함되어 있지 않습니다.
👍