본 논문은 심층 위변조 기술의 발전으로 인해 발생하는 공공 안전 위협에 대응하기 위해, 확산 모델 기반의 대규모 다중 모달 디지털 인간 위변조 데이터셋인 DigiFakeAV를 제시합니다. DigiFakeAV는 5가지 최신 디지털 인간 생성 방법과 음성 복제 방법을 활용하여 60,000개의 비디오(840만 프레임)로 구성되며, 다양한 국적, 피부색, 성별, 현실적인 시나리오를 포함하여 데이터 다양성과 현실성을 크게 향상시켰습니다. 사용자 연구 결과, DigiFakeAV에 대한 오인식률이 68%에 달하는 것으로 나타났으며, 기존 탐지 모델의 성능 저하를 통해 DigiFakeAV의 어려움을 강조합니다. 이 문제를 해결하기 위해, 본 논문에서는 비디오의 3D 시공간 특징과 오디오의 의미론적-음향적 특징을 공동으로 모델링하는 시공간 및 교차 모달 융합 기반의 효과적인 탐지 기준 모델인 DigiShield를 제안합니다. DigiShield는 DigiFakeAV에서 최첨단(SOTA) 성능을 달성하고 다른 데이터셋에서도 강력한 일반화 성능을 보여줍니다.