본 논문은 기존 웹 에이전트 평가 벤치마크가 작업 완료 여부만 평가하고 안전성과 신뢰성을 고려하지 않는다는 점을 지적하며, 기업 환경에서의 안전하고 신뢰할 수 있는 웹 에이전트 배포를 위한 새로운 벤치마크인 ST-WebAgentBench를 제시합니다. ST-WebAgentBench는 222개의 현실적인 기업 시나리오 기반 작업과 각 작업에 대한 안전 및 신뢰성(ST) 정책, 그리고 사용자 동의, 강건성 등 6가지 차원에 걸친 평가 점수를 제공합니다. 기존의 작업 완료율 외에, 모든 정책을 준수하는 완료만을 인정하는 Completion Under Policy (CuP) 지표와 ST 위반을 정량화하는 Risk Ratio 지표를 제안하며, 세 개의 최신 웹 에이전트를 평가하여 평균 CuP가 명목상 완료율의 3분의 2 미만임을 밝히고, 중대한 안전성 문제를 드러냅니다. 코드, 평가 템플릿, 정책 작성 인터페이스를 공개하여 실용적인 웹 에이전트 배포를 위한 첫걸음을 제공합니다.