Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models

Created by
  • Haebom

저자

Md Raisul Kibria, Sebastien Lafond, Janan Arslan

개요

본 논문은 2020년 1월부터 2024년 초까지 발표된 다중 모달 모델의 설명가능성에 대한 연구를 체계적으로 검토합니다. 특히 주의 기반 모델의 통합으로 인한 다양한 작업에서의 성능 향상과 더불어, 설명 가능한 인공 지능 (XAI)에 대한 요구 증가에 따라 진행된 연구를 분석합니다. 모델 아키텍처, 관련 모달리티, 설명 알고리즘 및 평가 방법론 등 여러 측면에서 문헌을 검토하며, 대부분의 연구가 비전-언어 및 언어 전용 모델에 집중되어 있고, 주의 기반 기법이 설명에 가장 흔하게 사용됨을 밝힙니다. 하지만 이러한 방법들은 모달리티 간 상호 작용의 전체 범위를 포착하는 데 부족하며, 도메인 간 아키텍처 이질성으로 인해 어려움이 더욱 커집니다. 또한 다중 모달 설정에서 XAI에 대한 평가 방법이 체계적이지 않고, 일관성, 견고성 및 모달리티 특유의 인지적, 상황적 요인에 대한 고려가 부족함을 지적합니다. 이러한 결과를 바탕으로 엄격하고 투명하며 표준화된 평가 및 보고 관행을 촉진하기 위한 포괄적인 권장 사항을 제시하여, 설명가능성을 중심으로 더 해석 가능하고 책임감 있는 다중 모달 AI 시스템에 대한 미래 연구를 지원하고자 합니다.

시사점, 한계점

시사점: 다중 모달 모델의 설명가능성 연구 동향을 체계적으로 분석하여, 주의 기반 기법의 빈번한 사용과 평가 방법론의 부족을 밝힘. 엄격하고 표준화된 평가 및 보고 관행을 위한 권장 사항 제시. 향후 더 해석 가능하고 책임감 있는 다중 모달 AI 시스템 개발에 기여.
한계점: 비전-언어 및 언어 전용 모델에 대한 연구가 집중되어 다른 모달리티 조합에 대한 분석 부족. 주의 기반 기법이 모달리티 간 상호 작용을 완전히 포착하지 못하는 한계. 다중 모달 XAI 평가 방법의 체계적이지 못함과 일관성, 견고성 부족. 모달리티 특유의 인지적, 상황적 요인에 대한 고려 부족.
👍