본 논문은 2020년 1월부터 2024년 초까지 발표된 다중 모달 모델의 설명가능성에 대한 연구를 체계적으로 검토합니다. 특히 주의 기반 모델의 통합으로 인한 다양한 작업에서의 성능 향상과 더불어, 설명 가능한 인공 지능 (XAI)에 대한 요구 증가에 따라 진행된 연구를 분석합니다. 모델 아키텍처, 관련 모달리티, 설명 알고리즘 및 평가 방법론 등 여러 측면에서 문헌을 검토하며, 대부분의 연구가 비전-언어 및 언어 전용 모델에 집중되어 있고, 주의 기반 기법이 설명에 가장 흔하게 사용됨을 밝힙니다. 하지만 이러한 방법들은 모달리티 간 상호 작용의 전체 범위를 포착하는 데 부족하며, 도메인 간 아키텍처 이질성으로 인해 어려움이 더욱 커집니다. 또한 다중 모달 설정에서 XAI에 대한 평가 방법이 체계적이지 않고, 일관성, 견고성 및 모달리티 특유의 인지적, 상황적 요인에 대한 고려가 부족함을 지적합니다. 이러한 결과를 바탕으로 엄격하고 투명하며 표준화된 평가 및 보고 관행을 촉진하기 위한 포괄적인 권장 사항을 제시하여, 설명가능성을 중심으로 더 해석 가능하고 책임감 있는 다중 모달 AI 시스템에 대한 미래 연구를 지원하고자 합니다.