WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions

작성자

Haebom

카테고리

Empty

저자

Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

💡 개요

본 논문은 복잡한 실제 웹사이트를 탐색하는 웹 에이전트에게 필수적인 '하위 작업(subtasks)' 수행 능력을 평가하기 위한 새로운 벤치마크인 WARC-Bench를 제안합니다. WARC-Bench는 웹 아카이브 파일을 활용하여 438개의 동적이고 현실적인 웹페이지 상호작용 하위 작업들을 포함하며, 최첨단 모델들조차 64.8%의 성공률에 그칠 정도로 높은 난이도를 보여줍니다. 본 연구는 또한 감독 학습 미세 조정(SFT)과 검증 가능한 보상을 이용한 강화 학습(RLVR) 기법을 실험하여, 특히 데이터가 부족한 상황에서도 RLVR이 SFT 모델의 성능을 52.8%까지 향상시켜 최전선 모델들을 능가함을 입증했습니다.

🔑 시사점 및 한계

•

웹 에이전트의 실제 웹사이트 탐색 능력 향상을 위해서는 다양한 UI 구성 요소와의 상호작용을 포함하는 하위 작업 수행 능력 평가가 매우 중요하다는 것을 시사합니다.

•

WARC-Bench는 웹 에이전트의 하위 작업 수행 능력 평가를 위한 독창적이고 도전적인 벤치마크를 제공하며, 기존 벤치마크들이 간과했던 부분을 보완합니다.

•

데이터가 부족한 상황에서도 RLVR이 SFT 대비 웹 에이전트의 하위 작업 수행 성능을 유의미하게 향상시킬 수 있음을 보여주어, 향후 모델 개발에 대한 방향성을 제시합니다.

•

기존 벤치마크들이 하위 작업 수행 능력을 충분히 평가하지 못한다는 점이 한계로 지적되며, 앞으로 더 많은 하위 작업들을 포함하는 벤치마크 개발 및 최첨단 모델들의 성능 개선 연구가 필요합니다.

PDF 보기

Made with Slashpage