본 논문은 Vision Language Model (VLM)이 다이어그램 내의 edge를 제대로 인식하지 못하는 문제를 다룬다. 이는 VLM이 텍스트 및 위치 정보에 과도하게 의존하여 명시적인 edge 특징을 학습하지 못하기 때문이라고 가정한다. 이를 해결하기 위해 텍스트 및 위치 정보의 편향이 없는 인공적으로 생성된 다이어그램-캡션 데이터셋으로 contrastive learning을 수행하여 이미지 인코더를 학습시켰다. 세 가지 과제(probing, image retrieval, captioning)를 통해 평가한 결과, 미세 조정된 모델이 기존 CLIP 모델보다 성능이 우수하며, 특히 캡션 생성 과제에서는 zero-shot GPT-4o 및 LLaVA-Mistral을 능가하는 성능을 보였다. 이는 텍스트 및 위치 편향을 제거하는 것이 VLM의 정확한 edge 인식에 도움이 된다는 것을 시사한다.
시사점, 한계점
•
시사점:
◦
VLM의 다이어그램 이해 능력 향상을 위한 새로운 방법 제시 (텍스트 및 위치 편향 제거)