Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users

Created by
  • Haebom

저자

Suyu Ye, Haojun Shi, Darren Shih, Hyokun Yun, Tanya Roosta, Tianmin Shu

개요

RealWebAssist는 장기간에 걸친 웹 기반 작업 지원을 위한 새로운 벤치마크입니다. 기존 벤치마크와 달리, 실제 세계 사용자의 모호하고, 다양한 수준의 지원을 필요로 하며, 시간에 따라 변화하는 지시를 순차적으로 따라야 하는 과제를 제시합니다. 실제 사용자로부터 수집된 순차적 지시 데이터셋을 포함하며, 각 사용자는 웹 기반 어시스턴트에게 여러 웹사이트에서 일련의 작업을 수행하도록 지시합니다. 성공적인 에이전트는 각 지시의 본래 의도를 추론하고, 사용자의 심리 상태를 추적하며, 사용자 특유의 루틴을 이해하고, 의도된 작업을 올바른 GUI 요소의 동작으로 연결해야 합니다. 실험 결과, 최첨단 모델이 사용자 지시를 이해하고 연결하는 데 어려움을 겪는다는 것을 보여주며, 장기간 웹 지원을 위한 실제 사용자 지시를 따르는 데 중요한 과제를 제기합니다.

시사점, 한계점

시사점: 실제 세계의 모호하고, 변화하는 사용자 지시를 다루는 장기간 웹 기반 작업 지원을 위한 새로운 벤치마크를 제공합니다. 현존하는 최첨단 모델의 한계를 명확히 보여줌으로써, 향후 연구 방향을 제시합니다. 실제 사용자 데이터를 기반으로 하여 현실적인 평가를 가능하게 합니다.
한계점: 현재 데이터셋의 규모가 명시적으로 언급되지 않았습니다. 데이터셋의 다양성과 대표성에 대한 추가적인 분석이 필요합니다. 평가 지표에 대한 상세한 설명이 부족합니다. 모델의 성능 저하 원인에 대한 심층적인 분석이 부족합니다.
👍