Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

Created by
  • Haebom

저자

Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov

개요

본 논문은 기존 웹 에이전트 평가 벤치마크가 작업 완료 여부만 평가하고 안전성과 신뢰성을 고려하지 않는다는 점을 지적하며, 기업 환경에서의 안전하고 신뢰할 수 있는 웹 에이전트 배포를 위한 새로운 벤치마크인 ST-WebAgentBench를 제시합니다. ST-WebAgentBench는 222개의 현실적인 기업 시나리오 기반 작업과 각 작업에 대한 안전 및 신뢰성(ST) 정책, 그리고 사용자 동의, 강건성 등 6가지 차원에 걸친 평가 점수를 제공합니다. 기존의 작업 완료율 외에, 모든 정책을 준수하는 완료만을 인정하는 Completion Under Policy (CuP) 지표와 ST 위반을 정량화하는 Risk Ratio 지표를 제안하며, 세 개의 최신 웹 에이전트를 평가하여 평균 CuP가 명목상 완료율의 3분의 2 미만임을 밝히고, 중대한 안전성 문제를 드러냅니다. 코드, 평가 템플릿, 정책 작성 인터페이스를 공개하여 실용적인 웹 에이전트 배포를 위한 첫걸음을 제공합니다.

시사점, 한계점

시사점:
기존 웹 에이전트 평가의 한계를 극복하고 안전성 및 신뢰성을 고려한 새로운 평가 기준 제시.
현실적인 기업 시나리오를 반영한 222개의 다양한 작업 제공.
CuP 및 Risk Ratio 지표를 통해 안전성 및 신뢰성 위험을 정량적으로 평가 가능.
오픈소스로 공개되어 웹 에이전트 개발 및 평가에 대한 접근성 향상.
최신 웹 에이전트의 안전성 문제를 실증적으로 밝힘으로써 향후 연구 방향 제시.
한계점:
제시된 222개의 작업이 모든 기업 환경을 완벽히 포괄하는지는 추가적인 검증 필요.
ST 정책의 정의 및 적용 방식에 대한 주관성 존재 가능성.
평가 대상 에이전트의 종류 및 수가 제한적일 수 있음.
장기적인 안전성 및 신뢰성 평가에 대한 고려 부족.
👍