본 논문은 심각한 위협으로 떠오르고 있는 심층 합성 기술, 특히 확산 기반 디지털 휴먼 생성 기술에 대한 탐구를 다룹니다. 기존의 얼굴 조작 방법과 달리, 이러한 모델은 다중 모달 제어 신호를 통해 일관성 있는 고품질 비디오를 생성할 수 있습니다. 이러한 유연성과 은밀성 때문에 기존의 탐지 전략에는 심각한 어려움이 있습니다. 이를 해결하기 위해, 연구진은 최신 다섯 가지 디지털 휴먼 생성 방법과 음성 복제 방법을 활용하여 6만 개의 비디오(840만 프레임)로 구성된 대규모 다중 모달 디지털 휴먼 위조 데이터셋 DigiFakeAV를 제시합니다. 다양한 국적, 피부색, 성별, 실제 시나리오를 포함하여 데이터 다양성과 현실성을 크게 향상시켰습니다. 사용자 연구 결과 DigiFakeAV에 대한 오인식률이 68%에 달하는 것으로 나타났으며, 기존 탐지 모델의 성능 저하를 통해 데이터셋의 어려움을 강조합니다. 이 문제를 해결하기 위해, 공간-시간적 특징과 교차 모달 융합을 기반으로 하는 효과적인 탐지 기준 모델 DigiShield를 제안합니다. 비디오의 3D 공간-시간적 특징과 오디오의 의미-음향적 특징을 공동으로 모델링함으로써, DigiFakeAV에서 최첨단(SOTA) 성능을 달성하고 다른 데이터셋에서도 강력한 일반화 성능을 보입니다.