Is Cognition Consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
Created by
Haebom
Category
Empty
저자
Zirui Shao, Feiyu Gao, Zhaoqing Zhu, Chuwei Luo, Hangdi Xing, Zhi Yu, Qi Zheng, Ming Yan, Jiajun Bu
개요
문서 이해 분야에서 멀티모달 대규모 언어 모델(MLLM)이 가진 인상적인 능력에도 불구하고, 인지(cognition)와 지각(perception) 간의 충돌로 인해 성능과 설명 가능성이 저하되는 문제점을 제기합니다. 특히 문서 VQA(Visual Question Answering)를 예시로 들어, 모델이 OCR을 통해 인식하는 시각적 내용과 생성하는 답변 간의 불일치를 지적합니다. 이러한 문제를 '인지 및 지각(C&P) 지식 충돌'로 정의하고, GPT-4o를 포함한 MLLM의 C&P 일관성을 분석한 결과, 75.26%의 낮은 일관성을 확인했습니다. C&P 지식 충돌을 완화하기 위해 '멀티모달 지식 일관성 미세 조정'이라는 새로운 방법을 제안하고, 이를 통해 모든 테스트 MLLM에서 C&P 지식 충돌을 줄이고 인지 및 지각 작업 모두에서 성능을 향상시켰습니다.
시사점, 한계점
•
시사점:
◦
문서 이해 분야 MLLM의 인지-지각 간 지식 충돌 문제를 명확히 정의하고, 문제의 심각성을 수치적으로 제시.