What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

Created by

Haebom

저자

Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim

💡 개요

최신 비전-언어 모델(VLM)은 긍정 편향으로 인해 부정 표현을 이해하는 데 어려움을 겪으며, 특히 기술된 객체 탐지(DOD) 작업에서 심각한 문제가 됩니다. 본 논문은 체계적인 CoT 및 VQA 파이프라인을 활용한 CoVAND 데이터셋 구축과, 텍스트 토큰 병합 모듈인 NegToMe를 제안하여 이러한 문제를 해결합니다. NegToMe는 토큰화 과정에서 발생하는 부정어 정보 손실을 방지하고 속성과 함께 의미 있는 구문으로 묶어 긍정 편향의 근본적인 원인을 해결합니다.

🔑 시사점 및 한계

•

VLM의 긍정 편향 문제를 해결하고 부정 표현 이해 능력을 크게 향상시킬 수 있습니다.

•

CoVAND 데이터셋은 고품질의 부정 표현 기반 인스턴스 탐지 데이터를 체계적으로 생성합니다.

•

NegToMe 모듈은 경량화된 구현에도 불구하고 부정어 이해 성능을 효과적으로 개선하며, 실제 탐지 응용 분야에 대한 중요한 발전입니다.

•

(한계점 또는 향후 과제) 제안된 방법론의 일반화 성능 및 다양한 부정 표현 유형에 대한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage