본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 CAPTCHA의 보안 보장을 어떻게 훼손하는지 연구합니다. 상용 모델을 사용하여 CAPTCHA 해결을 저렴하게 자동화할 수 있는 공격 표면을 식별하고, 7개의 주요 상업용 및 오픈 소스 MLLMs을 18가지 실제 CAPTCHA 작업 유형에 대해 평가합니다. 단일 시도 정확도, 제한된 재시도에서의 성공, 종단 간 지연 시간 및 해결당 비용을 측정하며, 작업별 프롬프트 엔지니어링 및 소수 샷 데모가 해결 효과에 미치는 영향도 분석합니다. MLLMs이 인식 지향적이고 상호 작용이 적은 CAPTCHA 작업을 인간 수준의 비용과 지연 시간으로 안정적으로 해결할 수 있음을 보여줍니다. 미세한 위치 지정, 다단계 공간 추론 또는 프레임 간 일관성이 필요한 작업은 현재 모델에서 여전히 어렵습니다. 모델의 추론 흔적을 검토하여 특정 CAPTCHA 퍼즐에 성공/실패하는 근본적인 메커니즘을 조사하고, 이를 기반으로 CAPTCHA 작업 선택 및 강화에 대한 방어 지향 지침을 도출합니다.