본 논문은 최근 다중 모달 대규모 언어 모델(MLLM)이 드물게 접하는 특정 도메인 작업에서 관련 지식 부족으로 실패하는 경우가 많다는 점에 주목하여, 시각적 게임 인지 능력을 테스트베드로 활용하여 몬스터 헌터: 월드를 대상으로 다중 모달 지식 그래프(MH-MMKG)를 구축했습니다. MH-MMKG는 다양한 모달리티와 복잡한 엔티티 관계를 포함하며, 이를 기반으로 모델의 복잡한 지식 검색 및 추론 능력을 평가하기 위한 일련의 어려운 질문들을 설계했습니다. 또한, 추가적인 훈련 없이 모델이 자율적으로 관련 지식을 검색할 수 있도록 다중 에이전트 검색기를 제안했습니다. 실험 결과, 제안된 접근 방식이 MLLM의 성능을 크게 향상시키는 것을 보여주며, 다중 모달 지식 증강 추론에 대한 새로운 관점을 제공하고 미래 연구의 견고한 기반을 마련합니다.