본 논문은 생성된 비디오의 현실감이 높아짐에 따라 딥페이크 콘텐츠를 감지하기 어려워짐에 따라, 자동 딥페이크 탐지기의 중요성이 커지고 있지만, 이들의 설명 불가능한 결정으로 인해 인간이 딥페이크 기반 사기 및 허위 정보에 취약하다는 점을 지적합니다. 이를 해결하기 위해, 설명 가능한 비디오 딥페이크 탐지를 위한 최초의 데이터셋 및 벤치마크인 ExDDV를 소개합니다. ExDDV는 약 5.4K개의 실제 및 딥페이크 비디오로 구성되며, 아티팩트를 설명하는 텍스트 설명과 아티팩트를 지적하는 클릭으로 수동으로 주석이 지정됩니다. 다양한 파인 튜닝 및 문맥 내 학습 전략으로 ExDDV에서 여러 시각-언어 모델을 평가한 결과, 텍스트 및 클릭 감독이 관찰된 아티팩트를 찾아 설명할 수 있는 강력한 설명 가능한 모델을 개발하는 데 모두 필요하다는 것을 보여줍니다.