StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering

Created by

Haebom

저자

Zhihao Wen, Wenkang Wei, Yuan Fang, Xingtong Yu, Hui Zhang, Weicheng Zhu, Xin Zhang

💡 개요

본 연구는 명시적인 외부 지식 검색 없이 멀티모달 대규모 언어 모델(MLLM)의 내재된 지식만을 활용하여 이미지를 기반으로 질문에 답하는 IK-KVQA(Implicit-Knowledge Visual Question Answering) 문제에 집중합니다. 기존의 답변-기반 지도 학습 방식이 추론 과정의 불투명성과 일반화 성능의 한계를 보이자, 제안된 StaR-KVQA 프레임워크는 텍스트와 시각 정보를 통합한 상징적 관계 경로와 이를 설명하는 자연어 설명을 포함하는 이중 구조의 추론 흔적을 도입하여 모델의 추론을 강화합니다. 이를 통해 모델은 외부 검색 없이도 더 명확하고 일관성 있는 추론 과정을 거쳐 높은 답변 정확도를 달성합니다.

🔑 시사점 및 한계

•

MLLM의 내재된 지식을 활용하는 IK-KVQA 태스크에서 명시적인 외부 지식 검색 없이도 구조화된 추론 과정을 통해 답변 정확도와 투명성을 크게 향상시킬 수 있음을 보여줍니다.

•

추론 흔적을 활용한 자기 증류 방식은 외부 검색기나 검증기 없이도 효과적인 모델 학습이 가능함을 입증하며, 단일 자동 회귀 패스로 효율적인 추론이 가능합니다.

•

제안된 프레임워크는 다양한 벤치마크에서 강력한 성능을 보여주었으나, 추론 흔적 생성 과정의 복잡성이나 편향, 그리고 다양한 종류의 암묵적 지식을 포괄하는 능력에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage