Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Multi-modal (reasoning) LLMs work as deepfake detectors?

Created by
  • Haebom

저자

Simiao Ren (Dennis), Yao Yao (Dennis), Kidus Zewde (Dennis), Zisheng Liang (Dennis), Tsang (Dennis), Ng (Dennis), Ning-Yau Cheng, Xiaoou Zhan, Qinzhe Liu, Yifei Chen, Hengwei Xu

개요

본 연구는 최첨단 다중 모달(추론) 대규모 언어 모델(LLM)을 이용한 딥페이크 이미지 탐지 가능성을 탐구합니다. OpenAI O1/4o, Gemini thinking Flash 2, Deepseek Janus, Grok 3, llama 3.2, Qwen 2/2.5 VL, Mistral Pixtral, Claude 3.5/3.7 sonnet 등 12개의 최신 다중 모달 LLM을 기존 딥페이크 탐지 방법과 비교 분석하고, 최근 공개된 실제 딥페이크 이미지 데이터셋을 사용하여 성능을 평가합니다. 프롬프트 튜닝을 활용하고 모델의 추론 경로를 분석하여 의사결정 과정의 주요 요인을 파악합니다. 일부 최고 성능의 다중 모달 LLM은 제로샷 환경에서도 기존 딥페이크 탐지 방식과 비슷하거나 뛰어난 성능을 보이며, 특히 분포 외 데이터셋에서 우수한 일반화 능력을 보였습니다. 반면 다른 LLM들은 매우 저조한 성능을 보였으며, 무작위 추측보다 나쁜 경우도 있었습니다. 또한, 모델 버전이나 추론 능력이 딥페이크 탐지와 같은 특수한 작업의 성능 향상에 기여하지 않는다는 점과, 모델 크기가 어떤 경우에 도움이 된다는 점을 발견했습니다. 이 연구는 향후 딥페이크 탐지 프레임워크에 다중 모달 추론을 통합할 가능성을 강조하고, 실제 시나리오에서의 강건성을 위한 모델 해석성에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
최첨단 다중 모달 LLM이 딥페이크 탐지에 경쟁력 있는 성능을 보임.
일부 LLM은 제로샷 환경에서도 우수한 일반화 능력을 보이며 분포 외 데이터셋에서 기존 방식을 능가.
다중 모달 추론을 활용한 딥페이크 탐지 프레임워크 개발 가능성 제시.
모델 해석성 향상을 통한 실제 시나리오에서의 강건성 확보 가능성 제시.
한계점:
일부 LLM은 매우 저조한 성능을 보였으며, 무작위 추측보다 나쁜 경우도 있음.
모델 버전 및 추론 능력이 딥페이크 탐지 성능에 기여하지 않음. (모델 크기는 일부 경우에 도움이 됨)
사용된 LLM의 종류 및 데이터셋에 대한 추가적인 연구 필요.
👍