본 논문은 웹 에이전트의 실세계 적용에 있어 병목 현상으로 작용하는 CAPTCHA 문제를 해결하기 위해, 다양하고 동적인 CAPTCHA 퍼즐을 통해 다중 모달 대규모 언어 모델(MLLM) 기반 에이전트의 시각적 추론 및 상호 작용 능력을 평가하는 웹 기반 벤치마크 및 플랫폼인 Open CaptchaWorld를 제시합니다. Open CaptchaWorld는 20가지 유형의 최신 CAPTCHA 총 225개를 포함하며, 각 퍼즐을 해결하는 데 필요한 인지 및 운동 단계 수를 정량화하는 새로운 지표인 CAPTCHA 추론 심도를 제안합니다. 실험 결과, 인간은 거의 완벽한 점수를 달성한 반면, 최첨단 MLLM 에이전트(Browser-Use Openai-o3)는 성공률이 40%에 그쳐 인간 수준의 성능(93.3%)에 크게 미치지 못함을 보여줍니다. 이는 Open CaptchaWorld가 현재 다중 모달 에이전트의 한계를 진단하고 보다 강력한 다중 모달 추론 시스템 개발을 위한 중요한 벤치마크임을 강조합니다. 코드와 데이터는 제시된 URL에서 이용 가능합니다.