Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation

Created by
  • Haebom

저자

Guopeng Li, Qiang Wang, Ke Yan, Shouhong Ding, Yuan Gao, Gui-Song Xia

개요

본 논문은 기존 지식 증류(KD) 방법론이 주로 유사한 아키텍처(예: CNN)의 교사-학생 쌍에 초점을 맞춘 것과 달리, 다양한 아키텍처(CNN, ViT, MLP 등) 간의 지식 전달을 가능하게 하는 Cross-Architecture KD (CAKD)를 제안합니다. CAKD의 주요 과제는 이질적인 모델 간의 상당한 특징 차이를 해결하는 것입니다. 이를 위해, 본 논문에서는 교사와 학생 간의 원활한 특징 지식 전달을 돕는 중간 모델(assistant model)을 도입합니다. 이 중간 모델은 교사와 학생의 합성곱 및 어텐션 모듈을 결합하여 이질적인 아키텍처의 장점을 통합합니다. 또한, 이질적인 특징은 공간 분포가 다양하여 기존의 MSE 손실 함수의 효율성이 떨어지는 것을 고려하여, 공간 무관 InfoNCE 손실 함수와 공간 평활화를 활용하여 특징 정렬을 개선합니다. CIFAR-100 및 ImageNet-1K 데이터셋에서 최대 11.47% 및 3.67%의 성능 향상을 달성하며 최첨단 성능을 보였습니다.

시사점, 한계점

시사점:
다양한 아키텍처 간의 지식 증류를 가능하게 하는 CAKD 기법 제시
중간 모델을 이용한 효과적인 특징 지식 전달
공간 무관 InfoNCE 손실 함수를 활용한 특징 정렬 개선
다양한 데이터셋에서 기존 방법 대비 우수한 성능 달성
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요
중간 모델의 설계 및 최적화에 대한 추가적인 연구 필요
특정 아키텍처 조합에 대한 편향성 존재 가능성
다양한 데이터셋 및 작업에 대한 광범위한 실험 필요
👍