Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting
Created by
Haebom
Category
Empty
저자
Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro
💡 개요
본 논문은 멀티모달 언어 모델(MLM)의 공간 추론 능력을 향상시키기 위한 새로운 시각적 프롬프팅 기법인 Graph-of-Mark(GoM)를 제안합니다. GoM은 이미지 내 객체들에 대한 장면 그래프를 픽셀 수준으로 오버레이하여 객체 간의 공간적 관계를 명확히 제시합니다. 이를 통해 기존의 독립적인 객체 마킹 방식의 한계를 극복하고, MLM의 제로샷 공간 추론 성능을 최대 11%p 향상시킵니다.
🔑 시사점 및 한계
•
GoM은 이미지 내 객체들의 상대적 위치와 방향에 대한 MLM의 이해도를 크게 높여, 시각 질의 응답 및 객체 위치 파악과 같은 공간 추론 관련 작업에서 유의미한 성능 향상을 가져옵니다.
•
장면 그래프 정보를 픽셀 수준으로 이미지에 직접 오버레이하는 방식은 기존의 텍스트 기반 설명이나 박스 기반 마킹보다 더 풍부하고 정확한 공간 정보를 제공할 수 있습니다.
•
GoM의 효율성은 다양한 오픈소스 MLM 모델과 데이터셋에서 검증되었으며, 텍스트 프롬프트에 보조적인 그래프 설명을 추가하는 것의 중요성을 보여줍니다.
•
한계점으로는 장면 그래프 생성 과정의 복잡성이나, 실제 복잡하고 밀집된 장면에서의 그래프 표현의 정확성 및 확장성에 대한 추가 연구가 필요할 수 있습니다.