생성적 적대 신경망(GAN)과 확산 모델의 발전으로 현실적인 딥페이크 콘텐츠가 증가하면서, 오디오-비주얼 영역에서 디지털 신뢰에 대한 위협이 커지고 있습니다. 단일 모달 감지 방법의 한계를 극복하기 위해, 본 논문은 특징 피라미드-트랜스포머(FPN-Transformer) 기반의 다중 모달 딥페이크 감지 및 위치 파악 프레임워크를 제안합니다. 사전 훈련된 자기 지도 학습 모델(오디오 WavLM, 비디오 CLIP)을 사용하여 계층적 시계열 특징을 추출하고, 국소적 주의 메커니즘을 갖춘 R-TLM 블록을 통해 다중 스케일 특징 피라미드를 구성하여 교차 컨텍스트 시간 종속성을 공동으로 분석합니다. 이중 분기 예측 헤드는 위조 확률을 예측하고 조작된 세그먼트의 시간적 오프셋을 정제하여 프레임 수준의 정밀도를 달성합니다. IJCAI'25 DDL-AV 벤치마크 테스트 세트에서 0.7535 점수를 기록하여, 일반화된 딥페이크 감지에 효과적임을 입증했습니다.