Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Created by
  • Haebom
Category
Empty

저자

Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He, Junjie Xiong

개요

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 CAPTCHA의 보안 보장을 어떻게 훼손하는지 연구합니다. 상용 모델을 사용하여 CAPTCHA 해결을 저렴하게 자동화할 수 있는 공격 표면을 식별하고, 7개의 주요 상업용 및 오픈 소스 MLLMs을 18가지 실제 CAPTCHA 작업 유형에 대해 평가합니다. 단일 시도 정확도, 제한된 재시도에서의 성공, 종단 간 지연 시간 및 해결당 비용을 측정하며, 작업별 프롬프트 엔지니어링 및 소수 샷 데모가 해결 효과에 미치는 영향도 분석합니다. MLLMs이 인식 지향적이고 상호 작용이 적은 CAPTCHA 작업을 인간 수준의 비용과 지연 시간으로 안정적으로 해결할 수 있음을 보여줍니다. 미세한 위치 지정, 다단계 공간 추론 또는 프레임 간 일관성이 필요한 작업은 현재 모델에서 여전히 어렵습니다. 모델의 추론 흔적을 검토하여 특정 CAPTCHA 퍼즐에 성공/실패하는 근본적인 메커니즘을 조사하고, 이를 기반으로 CAPTCHA 작업 선택 및 강화에 대한 방어 지향 지침을 도출합니다.

시사점, 한계점

MLLMs은 인식 기반 및 낮은 상호작용의 CAPTCHA를 효과적으로 해결할 수 있습니다.
위치 지정, 다단계 추론, 프레임 간 일관성이 필요한 CAPTCHA는 MLLMs에게 여전히 어렵습니다.
작업별 프롬프트 엔지니어링 및 소수 샷 데모는 해결 성능에 영향을 미칩니다.
모델의 추론 메커니즘 분석을 통해 CAPTCHA 설계를 위한 지침을 제공합니다.
현재 모델의 한계로 인해 모든 CAPTCHA 유형을 완전히 해결하지는 못합니다.
👍