본 논문은 심각한 공공 안전 위협으로 떠오르고 있는 diffusion model 기반 디지털 휴먼 생성 기술에 대한 대응책으로, 대규모 다중 모드 디지털 휴먼 위조 데이터셋 DigiFakeAV를 제시합니다. DigiFakeAV는 5가지 최신 디지털 휴먼 생성 방법과 음성 복제 방법을 사용하여 60,000개의 비디오(840만 프레임)를 포함하며, 다양한 국적, 피부색, 성별, 현실적 시나리오를 다룹니다. 기존 최첨단(SOTA) 탐지 모델의 성능 저하를 보여주는 사용자 연구 결과와 함께, DigiFakeAV는 위조 비디오 탐지의 어려움을 강조합니다. 이에 대한 해결책으로, 공간-시간적 및 교차 모드 융합 기반의 탐지 기준 모델 DigiShield를 제안하며, 비디오의 3D 공간-시간적 특징과 오디오의 의미-음향적 특징을 결합하여 DigiFakeAV 및 DF-TIMIT 데이터셋에서 SOTA 성능을 달성합니다.