# DARK: Diagonal-Anchored Repulsive Knowledge Distillation for Vision-Language Models under Extreme Compression

### 저자

Numan Saeed, Asif Hanif, Fadillah Adamsyah Maani, Hussain Alasmawi, Mohammad Yaqub

### 💡 개요

본 논문은 임상 환경에서 온디바이스 배포를 위한 비전-언어 모델의 극심한 압축 시 발생하는 지식 증류(KD) 성능 저하 문제를 해결하고자 합니다. 이를 위해 제안된 DARK(Diagonal-Anchored Repulsive Knowledge Distillation)는 학습 목표를 대각항(일치하는 이미지-텍스트 쌍)과 비대각항(비표적 유사성)으로 분해하는 대조적 KD 프레임워크입니다. DARK는 대각항으로 일치 쌍 정렬을 유지하고, 비대각항 가중치를 점진적으로 조정하여 모방에서 비표적 유사성 구조를 '반발'하도록 유도함으로써 극심한 압축 환경에서 효율적인 성능을 달성합니다.

### 🔑 시사점 및 한계

- 극심한 모델 압축 시, 교사의 모든 유사성 구조를 모방하는 대신 특정 구조(예: 비표적 유사성)를 반발하도록 유도하는 것이 효율적인 지식 증류 방법이 될 수 있습니다.

- DARK는 대조적 학습 방식을 통해 이미지-텍스트 쌍의 일관성을 유지하면서도, 교사의 불필요하거나 혼동을 야기하는 유사성 구조를 제거하여 학생 모델의 성능을 향상시킵니다.

- 제안된 DARK 방법론을 통해 FetalCLIP 모델을 26배 작은 시각 인코더를 가진 MobileFetalCLIP으로 성공적으로 압축하였으며, 제로샷 성능에서 교사 모델을 능가하는 결과를 보여 임상 환경에서의 활용 가능성을 입증했습니다.

- 본 연구는 주로 비전-언어 모델의 극심한 압축에 초점을 맞추었으며, 다른 종류의 모델이나 압축 수준에서의 DARK의 효과에 대한 추가적인 검증이 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.05421)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).