Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints

Created by
  • Haebom

저자

Zekun Li, Shinda Huang, Jiangtian Wang, Nathan Zhang, Antonis Antoniades, Wenyue Hua, Kaijie Zhu, Sirui Zeng, Chi Wang, William Yang Wang, Xifeng Yan

개요

SOPBench는 언어 에이전트의 도메인 특정 표준 운영 절차(SOP) 준수 능력을 평가하기 위한 자동화된 평가 파이프라인입니다. 7개의 고객 서비스 도메인에 걸쳐 167개의 도구/함수, 900개 이상의 검증된 테스트 사례, 그리고 다차원적인 에이전트 준수 평가 프레임워크를 포함합니다. 각 서비스별 SOP 코드 프로그램을 실행 가능한 함수의 방향 그래프로 변환하고, 자연어 SOP 설명에 따라 에이전트가 이러한 함수를 호출하도록 합니다. 오라클 규칙 기반 검증기로 코드의 준수 여부를 평가하여 수동 주석 및 LLM 기반 평가에 대한 의존성을 줄입니다. 18개의 주요 모델을 평가한 결과, 최고 수준의 모델조차도 과제 수행에 어려움을 겪는 것으로 나타났으며, 도메인 간 편차가 존재합니다. o4-mini-high와 같은 추론 모델이 우수한 성능을 보였고, 다른 강력한 모델들은 30~50%의 통과율을 보였으며, 소규모 모델(7B, 8B)은 훨씬 더 나쁜 성능을 보였습니다. 또한 언어 에이전트는 SOP 및 제약 조건을 무시하도록 쉽게 탈옥될 수 있습니다. 코드, 데이터 및 24,000개 이상의 에이전트 경로는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
언어 에이전트의 SOP 준수 능력 평가를 위한 표준화된 벤치마크 제공
다양한 규모와 유형의 언어 모델의 SOP 준수 능력 비교 분석 가능
모델의 취약점(SOP 무시 가능성)을 보여줌으로써 향후 모델 개발 방향 제시
다양한 도메인에 대한 SOP 준수 능력 평가를 통해 모델의 일반화 능력 평가 가능
추론 모델의 우수성 확인 및 소규모 모델의 성능 한계 제시
한계점:
평가는 특정 도메인(고객 서비스)에 국한됨
탈옥 가능성은 모델의 안전성에 대한 심각한 우려 제기
더욱 다양하고 복잡한 SOP 시나리오에 대한 평가 필요
실제 세계의 복잡성을 완전히 반영하지 못할 가능성 존재
👍