본 연구는 최첨단 다중 모달(추론) 대규모 언어 모델(LLM)을 이용한 딥페이크 이미지 탐지 가능성을 탐구합니다. OpenAI O1/4o, Gemini thinking Flash 2, Deepseek Janus, Grok 3, llama 3.2, Qwen 2/2.5 VL, Mistral Pixtral, Claude 3.5/3.7 sonnet 등 12개의 최신 다중 모달 LLM을 기존 딥페이크 탐지 방법과 비교 분석하고, 최근 공개된 실제 딥페이크 이미지 데이터셋을 사용하여 성능을 평가합니다. 프롬프트 튜닝을 활용하고 모델의 추론 경로를 분석하여 의사결정 과정의 주요 요인을 파악합니다. 일부 최고 성능의 다중 모달 LLM은 제로샷 환경에서도 기존 딥페이크 탐지 방식과 비슷하거나 뛰어난 성능을 보이며, 특히 분포 외 데이터셋에서 우수한 일반화 능력을 보였습니다. 반면 다른 LLM들은 매우 저조한 성능을 보였으며, 무작위 추측보다 나쁜 경우도 있었습니다. 또한, 모델 버전이나 추론 능력이 딥페이크 탐지와 같은 특수한 작업의 성능 향상에 기여하지 않는다는 점과, 모델 크기가 어떤 경우에 도움이 된다는 점을 발견했습니다. 이 연구는 향후 딥페이크 탐지 프레임워크에 다중 모달 추론을 통합할 가능성을 강조하고, 실제 시나리오에서의 강건성을 위한 모델 해석성에 대한 통찰력을 제공합니다.