Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios

Created by
  • Haebom

저자

Raghav Garg, Kapil Sharma, Karan Gupta

개요

본 논문은 고객 경험 관리(CXM) 분야, 특히 컨택센터 운영에 있어 대규모 언어 모델(LLM)의 활용 가능성을 평가하기 위한 새로운 대규모 합성 벤치마크 데이터셋인 CXMArena를 제시합니다. 기존 벤치마크의 현실성 부족 및 데이터 부족 문제를 해결하기 위해, 지식베이스 통합, 실제 환경의 노이즈, 대화 능력을 넘어서는 중요한 운영 과제 등을 고려하여 설계되었습니다. LLM 기반 파이프라인을 통해 제품 사양, 이슈 분류, 컨택센터 대화 등의 CXM 엔티티를 생성하며, 도메인 전문가의 의견을 바탕으로 노이즈를 주입하고 자동 검증을 통해 실제 데이터 분포를 정확하게 반영합니다. CXMArena는 지식 베이스 개선, 의도 예측, 에이전트 품질 준수, 문서 검색, 통합 도구를 사용한 다회차 RAG 등 5가지 주요 운영 과제에 대한 벤치마크를 제공하며, 최첨단 모델조차 높은 정확도를 달성하지 못함을 보여주는 기준 실험 결과를 제시합니다.

시사점, 한계점

시사점:
현실적인 CXM 환경을 반영한 새로운 벤치마크 데이터셋 CXMArena 제공
LLM 기반 파이프라인을 통한 대규모 합성 데이터 생성 방법 제시
기존 모델의 한계를 드러내고 향후 연구 방향 제시
다양한 CXM 운영 과제에 대한 벤치마크 제공
한계점:
합성 데이터셋이므로 실제 데이터와의 차이 존재 가능성
벤치마크 과제의 포괄성에 대한 추가적인 검토 필요
특정 도메인에 편향된 데이터셋일 가능성
CXMArena의 규모 및 다양성에 대한 보다 상세한 설명 필요
👍