본 논문은 심각한 공공 안전 위협으로 떠오르고 있는 diffusion-based 디지털 휴먼 생성 기술에 대한 대응 방안을 제시한다. 기존의 얼굴 조작 방법과 달리, diffusion 모델 기반의 디지털 휴먼 생성 기술은 다중 모달 제어 신호를 통해 일관성 있는 고품질 영상을 생성할 수 있다는 특징이 있다. 이러한 기술의 유연성과 은밀성은 기존의 탐지 전략에 심각한 문제를 야기한다. 이에 본 논문에서는 diffusion 모델을 기반으로 생성된 6만 개의 영상(840만 프레임)을 포함하는 대규모 다중 모달 디지털 휴먼 위조 데이터셋인 DigiFakeAV를 제시한다. 다양한 국적, 피부색, 성별, 실제 시나리오를 포함하여 데이터의 다양성과 현실성을 크게 향상시켰다. 사용자 연구 결과, 참가자들은 위조 영상을 실제 영상으로 잘못 분류하는 비율이 68%에 달했으며, 기존 탐지 모델의 성능이 DigiFakeAV 데이터셋에서 크게 저하됨을 보였다. 이러한 문제를 해결하기 위해, 본 논문에서는 시공간 및 교차 모달 융합 기반의 효과적인 탐지 기준 모델인 DigiShield를 제안한다. DigiShield는 영상의 3D 시공간 특징과 오디오의 의미론적-음향적 특징을 함께 모델링함으로써 DigiFakeAV 데이터셋에서 최첨단 성능을 달성하고 다른 데이터셋에서도 강력한 일반화 성능을 보인다.