ArEnAV는 아랍어-영어 코드 전환, 방언 변이, 그리고 아랍어 단일 언어 콘텐츠를 포함하는 최초의 대규모 아랍어-영어 오디오-비주얼 딥페이크 데이터셋입니다. 387,000개 이상의 비디오와 765시간 이상의 실제 및 가짜 비디오를 포함하며, 4개의 Text-To-Speech 모델과 2개의 립싱크 모델을 통합한 새로운 파이프라인을 사용하여 생성되었습니다. 주로 단일 언어 데이터로 훈련된 모델을 혼란스럽게 할 수 있는 코드 전환의 어려움을 해결하기 위해 제작되었으며, 다국어 다중 모드 딥페이크 탐지에 대한 포괄적인 분석을 가능하게 합니다. 기존의 단일 언어 및 다국어 데이터셋, 최첨단 딥페이크 탐지 모델 및 인간 평가를 기준으로 벤치마킹되어 딥페이크 연구 발전에 기여할 가능성을 보여줍니다.