Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models
Created by
Haebom
Category
Empty
저자
Shamima Hossain
개요
본 논문은 시각 언어 모델(VLMs)의 사실적 부정확성을 해결하기 위해 지식 그래프를 활용한 지식 기반 추론 프레임워크를 제안합니다. 이미지 캡셔닝 작업을 통해 시각적 개체 인식, 지식 그래프 탐색, 캡션 개선 등 다단계 추론을 수행합니다. 다양한 지식 표현 방식을 평가하여 사실 정확도와 논리적 추론 능력을 분석했으며, 실험 결과는 제안된 방식이 기존 방식보다 약 31% 향상된 정확도를 보임을 보여줍니다.