SOPBench는 언어 에이전트의 도메인 특정 표준 운영 절차(SOP) 준수 능력을 평가하기 위한 자동화된 평가 파이프라인입니다. 7개의 고객 서비스 도메인에 걸쳐 167개의 도구/함수, 900개 이상의 검증된 테스트 사례, 그리고 다차원적인 에이전트 준수 평가 프레임워크를 포함합니다. 각 서비스별 SOP 코드 프로그램을 실행 가능한 함수의 방향 그래프로 변환하고, 자연어 SOP 설명에 따라 에이전트가 이러한 함수를 호출하도록 합니다. 오라클 규칙 기반 검증기로 코드의 준수 여부를 평가하여 수동 주석 및 LLM 기반 평가에 대한 의존성을 줄입니다. 18개의 주요 모델을 평가한 결과, 최고 수준의 모델조차도 과제 수행에 어려움을 겪는 것으로 나타났으며, 도메인 간 편차가 존재합니다. o4-mini-high와 같은 추론 모델이 우수한 성능을 보였고, 다른 강력한 모델들은 30~50%의 통과율을 보였으며, 소규모 모델(7B, 8B)은 훨씬 더 나쁜 성능을 보였습니다. 또한 언어 에이전트는 SOP 및 제약 조건을 무시하도록 쉽게 탈옥될 수 있습니다. 코드, 데이터 및 24,000개 이상의 에이전트 경로는 GitHub에서 공개됩니다.