Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models

Created by

Haebom

저자

Hiroshi Sasaki

💡 개요

본 논문은 시각과 언어를 결합하는 멀티모달 모델이 미묘한 시각적 차이가 큰 의미적 중요성을 가지는 다이어그램 이해에 어려움을 겪는 문제를 해결하고자 합니다. 이를 위해 텍스트 요소를 무작위로 조합하여 합성 다이어그램을 생성하는 렌더러를 활용한 새로운 의사 대조 학습(pseudo contrastive learning) 패러다임을 제안합니다. 제안된 방법은 원본 데이터 수정 없이 구조적 차이를 부각하는 의사 대조 샘플을 학습에 통합하여, 모델이 더 정밀하고 의미론적으로 일관된 다이어그램 구조를 학습하도록 합니다.

🔑 시사점 및 한계

•

텍스트 요소 기반 합성 다이어그램 생성을 통한 의사 대조 학습은 다이어그램과 같이 미세한 구조적 변화가 중요한 도메인에서 멀티모달 모델의 이해도를 효과적으로 향상시킬 수 있습니다.

•

제안된 방법은 기존 CLIP 모델 및 하드 네거티브 학습 방식 대비 플로우차트 이해 벤치마크 데이터셋에서 이미지-텍스트 매칭 및 시각 질의응답 성능을 크게 개선하여, 도메인 특화 학습 전략의 중요성을 강조합니다.

•

현재 연구는 플로우차트와 같은 특정 유형의 다이어그램에 초점을 맞추고 있으며, 다양한 종류의 다이어그램으로 확장하거나 렌더링 과정의 복잡성 및 다양성을 더욱 높이는 방안에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage