Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Cognition Consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding

Created by
  • Haebom
Category
Empty

저자

Zirui Shao, Feiyu Gao, Zhaoqing Zhu, Chuwei Luo, Hangdi Xing, Zhi Yu, Qi Zheng, Ming Yan, Jiajun Bu

개요

문서 이해 분야에서 멀티모달 대규모 언어 모델(MLLM)이 가진 인상적인 능력에도 불구하고, 인지(cognition)와 지각(perception) 간의 충돌로 인해 성능과 설명 가능성이 저하되는 문제점을 제기합니다. 특히 문서 VQA(Visual Question Answering)를 예시로 들어, 모델이 OCR을 통해 인식하는 시각적 내용과 생성하는 답변 간의 불일치를 지적합니다. 이러한 문제를 '인지 및 지각(C&P) 지식 충돌'로 정의하고, GPT-4o를 포함한 MLLM의 C&P 일관성을 분석한 결과, 75.26%의 낮은 일관성을 확인했습니다. C&P 지식 충돌을 완화하기 위해 '멀티모달 지식 일관성 미세 조정'이라는 새로운 방법을 제안하고, 이를 통해 모든 테스트 MLLM에서 C&P 지식 충돌을 줄이고 인지 및 지각 작업 모두에서 성능을 향상시켰습니다.

시사점, 한계점

시사점:
문서 이해 분야 MLLM의 인지-지각 간 지식 충돌 문제를 명확히 정의하고, 문제의 심각성을 수치적으로 제시.
GPT-4o와 같은 최신 모델에서도 C&P 일관성이 낮음을 밝혀, 개선의 필요성을 강조.
C&P 지식 충돌 완화를 위한 새로운 방법론 제시 및 효과 검증.
인지 및 지각 작업 모두에서 성능 향상을 이끌어, 모델의 전반적인 효율성을 증진.
한계점:
제안된 방법의 일반화 가능성에 대한 추가적인 연구 필요.
C&P 지식 충돌의 근본적인 원인에 대한 깊이 있는 분석 부족.
다른 종류의 MLLM과 다른 문서 이해 작업에 대한 추가적인 실험 필요.
지식 일관성 미세 조정의 계산 비용 및 복잡성에 대한 고려 부족.
👍