Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NegVQA: Can Vision Language Models Understand Negation?

Created by
  • Haebom

저자

Yuhui Zhang, Yuchang Su, Yiming Liu, Serena Yeung-Levy

개요

NegVQA는 다양한 부정 시나리오와 이미지-질문 분포를 포함하는 7,379개의 2지 선다형 질문으로 구성된 시각적 질문 응답(VQA) 벤치마크입니다. 기존 VQA 데이터셋의 질문을 활용하여 대규모 언어 모델을 통해 부정문을 생성하여 구성되었습니다. 7가지 모델 계열의 최첨단 VLM 20개를 평가한 결과, 이러한 모델들은 부정에 상당히 어려움을 겪으며 원래 질문에 대한 응답과 비교하여 성능이 크게 저하되는 것으로 나타났습니다. 또한, 모델 크기가 증가함에 따라 처음에는 NegVQA의 성능이 저하되다가 개선되는 U자형 스케일링 추세를 발견했습니다. 이 벤치마크는 VLM의 부정 이해에 대한 중요한 차이점을 보여주고 미래 VLM 개발에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
VLM의 부정 이해 능력에 대한 중요한 벤치마크인 NegVQA를 제시합니다.
최첨단 VLM들이 부정 처리에 어려움을 겪는다는 것을 보여줍니다.
모델 크기 증가가 성능에 미치는 U자형 스케일링 추세를 밝혀냅니다.
향후 VLM 개발 방향에 대한 통찰력을 제공합니다.
한계점:
LLM을 이용하여 부정문을 생성하는 방식의 한계가 존재할 수 있습니다. (생성된 부정문의 질적 차이 등)
현재 벤치마크에 포함된 VLM의 종류가 제한적일 수 있습니다.
U자형 스케일링 추세의 원인에 대한 추가적인 분석이 필요합니다.
👍