Sign In

What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

작성자
  • Haebom
카테고리
Empty

저자

Inha Kang, Youngsun Lim, Seonho Lee, Jiho Choi, Junsuk Choe, Hyunjung Shim

개요

최첨단 시각-언어 모델(VLM)이 부정 표현 이해에 어려움을 겪는, 긍정 편향 문제를 해결하기 위해, 본 논문은 두 가지 주요 기여를 제시한다. 첫째, 체계적인 사고 과정(CoT)과 VQA 기반 파이프라인을 통해 고품질 인스턴스 기반 부정 데이터를 생성하는 새로운 데이터셋 파이프라인인 CoVAND를 소개한다. 둘째, 긍정 편향의 구조적 원인을 직접적으로 해결하는 새로운 경량화된 텍스트 토큰 병합 모듈인 NegToMe를 제안한다. NegToMe는 토큰화 과정에서 부정 단서를 속성들과 함께 의미론적 구문으로 묶어, 입력 수준에서 정확한 극성을 유지하여 제한된 데이터로도 견고한 부정 이해를 가능하게 한다. NegToMe는 LoRA 기반의 파라미터 효율적인 미세 조정과 통합되어 OVDEval에서 NMS-AP를 최대 +10.8점까지 향상시키고, 최첨단 VLM에 일반화 성능을 보인다.

시사점, 한계점

시사점:
CoVAND 데이터셋을 통해 고품질의 부정 데이터를 생성하는 새로운 파이프라인 제시.
NegToMe 모듈을 통해 부정 표현 이해 능력을 향상시키는 새로운 아키텍처 제시.
OVDEval에서 NMS-AP를 최대 +10.8점 향상시키며, SoTA VLM에 일반화 성능 입증.
실제 객체 탐지 응용 분야에서 부정 이해 문제 해결에 중요한 진전.
한계점:
구체적인 데이터셋 구성 및 모델 구조의 상세 정보 부족.
다른 VLM 모델과의 비교 분석 및 일반화 성능에 대한 추가적인 연구 필요.
실제 환경에서의 적용 가능성에 대한 추가적인 실험 및 검증 필요.
👍