Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Visual Encoder Learn to See Arrows?

Created by
  • Haebom

저자

Naoyuki Terashita, Yusuke Tozaki, Hideaki Omote, Congkha Nguyen, Ryosuke Nakamoto, Yuta Koreeda, Hiroaki Ozaki

개요

본 논문은 Vision Language Model (VLM)이 다이어그램 내의 edge를 제대로 인식하지 못하는 문제를 다룬다. 이는 VLM이 텍스트 및 위치 정보에 과도하게 의존하여 명시적인 edge 특징을 학습하지 못하기 때문이라고 가정한다. 이를 해결하기 위해 텍스트 및 위치 정보의 편향이 없는 인공적으로 생성된 다이어그램-캡션 데이터셋으로 contrastive learning을 수행하여 이미지 인코더를 학습시켰다. 세 가지 과제(probing, image retrieval, captioning)를 통해 평가한 결과, 미세 조정된 모델이 기존 CLIP 모델보다 성능이 우수하며, 특히 캡션 생성 과제에서는 zero-shot GPT-4o 및 LLaVA-Mistral을 능가하는 성능을 보였다. 이는 텍스트 및 위치 편향을 제거하는 것이 VLM의 정확한 edge 인식에 도움이 된다는 것을 시사한다.

시사점, 한계점

시사점:
VLM의 다이어그램 이해 능력 향상을 위한 새로운 방법 제시 (텍스트 및 위치 편향 제거)
contrastive learning을 이용한 효과적인 edge 특징 학습 방법 제시
다이어그램 이해 관련 세 가지 과제에서 기존 모델 대비 성능 향상 확인
한계점:
인공적으로 생성된 데이터셋 사용으로 실제 다이어그램 데이터와의 차이 존재 가능성
사용된 과제가 다이어그램 이해의 모든 측면을 완벽히 반영하지 못할 가능성
제안된 방법의 일반화 성능에 대한 추가 연구 필요
👍