본 논문은 인공지능으로 생성된 콘텐츠, 특히 인간 중심의 영상 합성 기술의 발전으로 인해 발생하는 정보의 진위성 위협과 대중의 신뢰 저하 문제를 다룹니다. 기존의 DeepFake 기술이 얼굴 조작에 집중하는 것과 달리, 최근의 기술은 전체 신체의 움직임을 제어하여 환경, 물체, 다른 사람과의 복잡한 상호작용까지 합성할 수 있습니다. 기존의 탐지 방법들은 이러한 전신 합성 콘텐츠의 위험성을 간과하는 경향이 있습니다. 본 논문에서는 밀집된 텍스트 감독 없이도 LLM이 추론 능력을 개발할 수 있도록 Group Relative Policy Optimization을 채택한 새로운 다중 모달 인간 중심 합성 영상 탐지 프레임워크인 AvatarShield를 제안합니다. AvatarShield는 고차원 의미적 불일치를 위한 이산적 비전 타워와 미세한 인공물 분석을 위한 잔차 추출기를 결합합니다. 또한, 텍스트, 포즈 또는 오디오에 의해 구동되는 9가지 최첨단 인간 생성 방법을 사용하여 15,000개의 실제 및 합성 영상을 포함하는 대규모 벤치마크인 FakeHumanVid를 소개합니다. 광범위한 실험을 통해 AvatarShield가 도메인 내 및 도메인 간 설정에서 기존 방법보다 성능이 우수함을 보여줍니다.