본 연구는 최첨단 다중 모달(추론) 대규모 언어 모델(LLM)을 이용한 딥페이크 이미지 탐지의 가능성을 탐색합니다. OpenAI O1/4o, Gemini thinking Flash 2, Deepseek Janus, Grok 3, llama 3.2, Qwen 2/2.5 VL, Mistral Pixtral, Claude 3.5/3.7 sonnet 등 12개의 최신 다중 모달 LLM을 기존 딥페이크 탐지 방법과 비교 분석하고, 최근 공개된 실제 딥페이크 이미지 데이터셋을 포함한 여러 데이터셋에서 성능을 벤치마킹합니다. 프롬프트 튜닝을 활용하고 모델의 추론 경로를 심층 분석하여 의사결정 과정의 주요 요인을 파악합니다. 일부 최고 성능의 다중 모달 LLM은 제로샷에서도 기존 딥페이크 탐지 방식과 경쟁력 있는 성능을 보이며, 분포 외 데이터셋에서는 기존 방식을 능가하는 성능을 보입니다. 그러나 다른 LLM들은 매우 실망스러운 성능을 보였고, 일부는 무작위 추측보다도 성능이 낮았습니다. 모델 버전이나 추론 능력이 딥페이크 탐지와 같은 특수한 작업의 성능에 기여하지 않는다는 점과 모델 크기가 어떤 경우에는 성능 향상에 도움이 된다는 점을 발견했습니다. 본 연구는 향후 딥페이크 탐지 프레임워크에 다중 모달 추론을 통합할 가능성을 강조하고, 실제 시나리오에서의 강건성을 위한 모델 해석성에 대한 통찰력을 제공합니다.