Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

작성자

Haebom

카테고리

Empty

저자

Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

💡 개요

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 이미지의 작은 세부 사항을 파악하는 데 어려움을 겪는 문제를 해결하기 위해 Vision-OPD라는 새로운 프레임워크를 제안합니다. Vision-OPD는 이미지의 특정 부분을 중심으로 학습된 모델의 능력을 전체 이미지에 대한 이해로 전이시키는 온-폴리시 자기 증류 방식을 사용합니다. 이를 통해 외부 지도나 도구 없이도 모델이 시각적 확대의 이점을 내재화하도록 하여 미세한 시각적 이해 능력을 향상시킵니다.

🔑 시사점 및 한계

•

MLLMs의 미세 시각적 이해 능력 부족이 '지역적 인식'과 '전체적 인식' 간의 격차에서 비롯된다는 중요한 관찰을 제시합니다.

•

외부 지도나 도구 없이도 MLLM의 자체 능력을 활용하여 성능을 향상시키는 효과적인 자기 증류 방법론을 제안했습니다.

•

다양한 벤치마크에서 기존의 대규모 모델들보다 경쟁력 있거나 우수한 성능을 달성하며 미세 시각적 이해 능력을 입증했습니다.

•

본 연구는 특정 데이터셋 및 MLLM 아키텍처에 대한 결과를 제시하며, 다른 유형의 MLLM이나 다양한 데이터셋에 대한 일반화 가능성에 대한 추가 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage