Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection
Created by
Haebom
Category
Empty
저자
Bangzheng Li, Fei Wang, Wenxuan Zhou, Nan Xu, Ben Zhou, Sheng Zhang, Hoifung Poon, Muhao Chen
개요
본 논문은 비전-언어 모델(VLMs)의 미세한 시각적 추론 능력 향상을 위한 경량의 범용 프레임워크인 SEMCLIP을 제안합니다. 기존 VLMs는 이미지를 여러 부분으로 나누어 처리하는 방식으로 인해 효율성이 떨어지고 LLM에 불필요한 정보가 들어갈 수 있다는 문제점을 가지고 있습니다. SEMCLIP은 텍스트 의미론을 활용하여 중요한 시각 영역을 식별하고, 이를 VLMs에 통합하여 미세한 세부 정보 처리 능력을 향상시킵니다. LLaVA-1.5(7B VLM)에 적용한 결과, 7개의 벤치마크에서 평균 3.3%의 성능 향상을 보였으며, 특히 세부적인 이해가 중요한 V* 벤치마크에서는 5.3% 향상되었습니다. 기존 VLM의 재훈련 없이도 성능 향상을 달성할 수 있다는 점이 특징입니다.
시사점, 한계점
•
시사점:
◦
텍스트 의미론을 활용하여 VLMs의 시각적 추론 능력을 효율적으로 향상시키는 새로운 방법 제시.