Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Created by
  • Haebom

저자

Kung-Hsiang Huang, Akshara Prabhakar, Onkar Thorat, Divyansh Agarwal, Prafulla Kumar Choubey, Yixin Mao, Silvio Savarese, Caiming Xiong, Chien-Sheng Wu

개요

CRMArena-Pro는 다양한 비즈니스 환경에서 대규모 언어 모델(LLM) 에이전트의 현실적인 평가를 위한 새로운 벤치마크입니다. 기존 벤치마크의 한계점인 환경, 데이터, 에이전트-사용자 상호작용의 신뢰성 부족 및 다양한 비즈니스 시나리오와 산업에 대한 제한적인 적용 범위를 해결하기 위해 고안되었습니다. 영업, 서비스, 그리고 '구성, 가격 책정, 견적' 프로세스 전반에 걸쳐 19가지 전문가 검증 과제를 포함하며, 기업 간 거래(B2B)와 기업-고객 거래(B2C) 시나리오 모두를 지원합니다. 다양한 페르소나에 의해 안내되는 멀티턴 상호작용과 강력한 기밀성 인식 평가를 통합하는 것이 특징입니다. 실험 결과, 주요 LLM 에이전트는 CRMArena-Pro에서 단일 턴 성공률이 약 58%에 불과하며, 멀티턴 설정에서는 약 35%로 크게 감소했습니다. 워크플로 실행은 최고 에이전트에서 83% 이상의 단일 턴 성공률을 보였지만, 다른 평가된 비즈니스 기술은 더 큰 어려움을 보였습니다. 또한 에이전트는 기본적으로 기밀성 인식이 거의 없습니다. 특정 프롬프팅을 통해 이를 개선할 수 있지만, 종종 작업 성능이 저하됩니다.

시사점, 한계점

시사점: 현존하는 LLM의 능력과 기업의 요구사항 간의 상당한 격차를 보여줍니다. 멀티턴 추론, 기밀성 준수 및 다용도 기술 습득의 발전이 필요함을 강조합니다. CRMArena-Pro는 LLM 에이전트의 현실적인 성능 평가를 위한 훨씬 더 엄격하고 포괄적인 벤치마크를 제공합니다.
한계점: 벤치마크의 과제는 전문가에 의해 검증되었지만, 실제 비즈니스 환경의 모든 복잡성을 완벽하게 반영하지 못할 수 있습니다. 기밀성 인식 향상을 위한 특정 프롬프팅은 작업 성능 저하를 초래할 수 있습니다. 더욱 다양한 산업과 비즈니스 시나리오를 포함하도록 벤치마크를 확장할 필요가 있을 수 있습니다.
👍