What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

작성자

Haebom

카테고리

Empty

저자

Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim

개요

최첨단 시각-언어 모델(VLM)이 부정 표현 이해에 어려움을 겪는, 긍정 편향 문제를 해결하기 위해, 본 논문은 두 가지 주요 기여를 제시한다. 첫째, 체계적인 사고 과정(CoT)과 VQA 기반 파이프라인을 통해 고품질 인스턴스 기반 부정 데이터를 생성하는 새로운 데이터셋 파이프라인인 CoVAND를 소개한다. 둘째, 긍정 편향의 구조적 원인을 직접적으로 해결하는 새로운 경량화된 텍스트 토큰 병합 모듈인 NegToMe를 제안한다. NegToMe는 토큰화 과정에서 부정 단서를 속성들과 함께 의미론적 구문으로 묶어, 입력 수준에서 정확한 극성을 유지하여 제한된 데이터로도 견고한 부정 이해를 가능하게 한다. NegToMe는 LoRA 기반의 파라미터 효율적인 미세 조정과 통합되어 OVDEval에서 NMS-AP를 최대 +10.8점까지 향상시키고, 최첨단 VLM에 일반화 성능을 보인다.