# CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

### 저자

Jiwan Kim, Kibum Kim, Sangwoo Seo, Chanyoung Park

### 💡 개요

본 논문은 멀티모달 대형 언어 모델(MLLM)의 높은 계산 복잡성을 해결하기 위한 효율적인 지식 증류(KD) 방법론인 CompoDistill을 제안합니다. 기존 KD 방식이 교사 MLLM의 풍부한 시각적 인지 능력을 효과적으로 전수하지 못하는 문제를 발견하고, 학생 모델의 시각적 주의(attention)를 교사 모델과 명시적으로 정렬함으로써 이를 해결합니다. 이를 통해 시각적 추론 능력과 시각적 질의응답(VQA) 성능을 동시에 향상시킵니다.

### 🔑 시사점 및 한계

- CompoDistill은 MLLM의 효율적인 압축을 위해 교사 모델의 시각적 인지 능력을 학생 모델로 효과적으로 이전하는 새로운 지식 증류 프레임워크를 제시합니다.

- 제안된 방법은 특히 여러 시각적 요소를 복합적으로 이해해야 하는 추론 작업에서 학생 모델의 성능을 크게 향상시키는 것으로 나타났습니다.

- 실험에서 CompoDistill은 더 발전된 백본에서도 효과를 보여 일반화 가능성을 시사합니다.

- 향후 연구에서는 다양한 MLLM 아키텍처 및 태스크에 대한 CompoDistill의 적용 가능성을 더욱 확장하고, 시각적 주의 정렬 메커니즘을 더욱 정교화하는 방안을 고려할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2510.12184)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
