RealWebAssist는 장기간에 걸친 웹 기반 작업 지원을 위한 새로운 벤치마크입니다. 기존 벤치마크와 달리, 실제 세계 사용자의 모호하고, 다양한 수준의 지원을 필요로 하며, 시간에 따라 변화하는 지시를 순차적으로 따라야 하는 과제를 제시합니다. 실제 사용자로부터 수집된 순차적 지시 데이터셋을 포함하며, 각 사용자는 웹 기반 어시스턴트에게 여러 웹사이트에서 일련의 작업을 수행하도록 지시합니다. 성공적인 에이전트는 각 지시의 본래 의도를 추론하고, 사용자의 심리 상태를 추적하며, 사용자 특유의 루틴을 이해하고, 의도된 작업을 올바른 GUI 요소의 동작으로 연결해야 합니다. 실험 결과, 최첨단 모델이 사용자 지시를 이해하고 연결하는 데 어려움을 겪는다는 것을 보여주며, 장기간 웹 지원을 위한 실제 사용자 지시를 따르는 데 중요한 과제를 제기합니다.