Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism

Created by
  • Haebom
Category
Empty

저자

Yinjie Zhao, Heng Zhao, Bihan Wen, Joey Tianyi Zhou

개요

AI 생성 콘텐츠(AIGC)의 발달과 함께, 멀티모달 대형 언어 모델(LLM)이 생성된 시각적 입력을 실제 입력과 구별하는 데 어려움을 겪고 있습니다. 이러한 단점은 모델이 생성된 콘텐츠에 속아 추론 과정의 신뢰성이 저해되는 시각적 기만에 대한 취약성을 야기합니다. 따라서 급증하는 생성 모델과 다양한 데이터 분포에 직면하여, 잠재적인 기만에 대한 시각적 입력의 진위 여부를 검증하기 위해 LLM의 일반화 가능한 추론 능력을 향상시키는 것이 중요합니다. 인간의 인지 과정을 통해 LLM이 시각적 입력을 과도하게 신뢰하는 경향이 있으며, 회의론을 주입하면 시각적 기만에 대한 모델의 시각적 인지 능력이 크게 향상될 수 있음을 발견했습니다. 이를 기반으로, 회의론을 주입하여 일반화 가능한 진위 여부 검증을 수행하는 완전한 추론 기반의 에이전트 추론 프레임워크인 \textbf{Inception}을 제안합니다. 여기서 LLM의 추론 논리는 외부 회의론자와 내부 회의론자 에이전트 간에 반복적으로 향상됩니다. 이 연구는 AIGC 시각적 기만에 대응하는 최초의 완전한 추론 기반 프레임워크입니다. 제안하는 방법은 기존 LLM 기반 모델보다 훨씬 더 우수한 성능 향상을 보였으며, AEGIS 벤치마크에서 SOTA 성능을 달성했습니다.

시사점, 한계점

시사점:
AIGC로 인한 시각적 기만에 대응하기 위한 새로운 프레임워크 제시.
LLM의 시각적 인지 능력 향상을 위한 회의론 주입의 중요성 강조.
기존 LLM 기반 모델 및 SOTA 대비 우수한 성능 달성.
AEGIS 벤치마크에서 SOTA 성능 달성.
한계점:
논문에서 구체적인 한계점이 명시되지 않음. (논문 요약본에서는 한계점을 파악하기 어려움)
👍