Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

Created by
  • Haebom

저자

Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

개요

본 논문은 웹 에이전트의 실세계 적용에 있어 병목 현상으로 작용하는 CAPTCHA 문제를 해결하기 위해, 다양하고 동적인 CAPTCHA 퍼즐을 통해 다중 모달 대규모 언어 모델(MLLM) 기반 에이전트의 시각적 추론 및 상호 작용 능력을 평가하는 웹 기반 벤치마크 및 플랫폼인 Open CaptchaWorld를 제시합니다. Open CaptchaWorld는 20가지 유형의 최신 CAPTCHA 총 225개를 포함하며, 각 퍼즐을 해결하는 데 필요한 인지 및 운동 단계 수를 정량화하는 새로운 지표인 CAPTCHA 추론 심도를 제안합니다. 실험 결과, 인간은 거의 완벽한 점수를 달성한 반면, 최첨단 MLLM 에이전트(Browser-Use Openai-o3)는 성공률이 40%에 그쳐 인간 수준의 성능(93.3%)에 크게 미치지 못함을 보여줍니다. 이는 Open CaptchaWorld가 현재 다중 모달 에이전트의 한계를 진단하고 보다 강력한 다중 모달 추론 시스템 개발을 위한 중요한 벤치마크임을 강조합니다. 코드와 데이터는 제시된 URL에서 이용 가능합니다.

시사점, 한계점

시사점:
MLLM 기반 에이전트의 시각적 추론 및 상호 작용 능력 평가를 위한 새로운 벤치마크 Open CaptchaWorld 제시.
CAPTCHA 추론 심도라는 새로운 지표를 통해 CAPTCHA 해결의 복잡성을 정량적으로 평가.
현재 MLLM 에이전트의 CAPTCHA 해결 능력의 한계를 명확히 제시하고 향상 방향 제시.
인간과 MLLM 에이전트의 성능 차이를 명확히 보여줌으로써 향후 연구 방향 제시.
한계점:
Open CaptchaWorld에 포함된 CAPTCHA 유형의 다양성 및 대표성에 대한 추가적인 검증 필요.
벤치마크에 사용된 MLLM 에이전트의 종류 및 설정에 대한 자세한 설명 필요.
CAPTCHA 추론 심도 지표의 객관성 및 신뢰성에 대한 추가 연구 필요.
실제 웹 환경에서의 일반화 성능에 대한 추가적인 평가 필요.
👍