대규모 시각-언어 모델(LVLM)은 멀티모달 벤치마크에서 강력한 성능을 보이지만, 구조적 추론과 정확한 접지 능력에 한계가 있다. 본 연구는 단순한 시각적 구조(분할, 주석 등) 추가가 정확도를 향상시키는 현상을 조사하고, 외부 단서에 의해 유도된 잠재적 식별자인 "Grounding IDs"의 개념을 제안한다. Grounding IDs는 개체를 모달리티 전반에 걸쳐 지정된 분할에 연결한다. 표현 분석을 통해 이러한 식별자가 임베딩 공간에서 견고한 내분할 정렬로 나타나 이미지와 텍스트 간의 모달리티 격차를 줄이는 것을 발견했다. 인과 관계 개입을 통해 이러한 식별자가 객체와 기호적 단서 사이의 결합을 매개한다는 것을 확인했다. Grounding IDs는 관련 구성 요소 간의 주의를 강화하여 교차 모달 접지를 개선하고 환각을 줄인다. 본 연구 결과는 Grounding IDs가 외부 단서가 멀티모달 결합을 향상시키는 주요 기호 메커니즘임을 밝혀내어 해석 가능성과 실질적인 견고성 개선을 제공한다.
시사점, 한계점
•
시사점:
◦
Grounding IDs는 외부 단서를 통해 향상된 멀티모달 결합을 설명하는 핵심 메커니즘을 제공한다.
◦
Grounding IDs는 임베딩 공간에서 내분할 정렬을 유도하여 모달리티 격차를 줄인다.
◦
Grounding IDs는 주의 메커니즘을 강화하여 교차 모달 접지 및 환각 감소를 개선한다.