CRMArena-Pro는 다양한 비즈니스 환경에서 대규모 언어 모델(LLM) 에이전트의 현실적인 평가를 위한 새로운 벤치마크입니다. 기존 벤치마크의 한계점인 환경, 데이터, 에이전트-사용자 상호작용의 신뢰성 부족 및 다양한 비즈니스 시나리오와 산업에 대한 제한적인 적용 범위를 해결하기 위해 고안되었습니다. 영업, 서비스, 그리고 '구성, 가격 책정, 견적' 프로세스 전반에 걸쳐 19가지 전문가 검증 과제를 포함하며, 기업 간 거래(B2B)와 기업-고객 거래(B2C) 시나리오 모두를 지원합니다. 다양한 페르소나에 의해 안내되는 멀티턴 상호작용과 강력한 기밀성 인식 평가를 통합하는 것이 특징입니다. 실험 결과, 주요 LLM 에이전트는 CRMArena-Pro에서 단일 턴 성공률이 약 58%에 불과하며, 멀티턴 설정에서는 약 35%로 크게 감소했습니다. 워크플로 실행은 최고 에이전트에서 83% 이상의 단일 턴 성공률을 보였지만, 다른 평가된 비즈니스 기술은 더 큰 어려움을 보였습니다. 또한 에이전트는 기본적으로 기밀성 인식이 거의 없습니다. 특정 프롬프팅을 통해 이를 개선할 수 있지만, 종종 작업 성능이 저하됩니다.