Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation

Created by
  • Haebom
Category
Empty

저자

Dvir Cohen, Lin Burg, Sviatoslav Pykhnivskyi, Hagit Gur, Stanislav Kovynov, Olga Atzmon, Gilad Barkan

개요

본 논문은 기업 환경의 질문 응답(QA) 시스템을 위한 새로운 벤치마크인 WixQA를 소개합니다. 기존의 오픈 도메인 데이터셋과 달리, WixQA는 Wix.com 고객 지원 상호 작용에서 추출된 실제 질문과 답변을 포함하며, 답변을 생성하는 데 사용된 지식 기반(KB) 스냅샷도 함께 제공합니다. WixQA는 전문가가 작성한 답변(WixQA-ExpertWritten), 사용자 대화에서 추출된 답변(WixQA-Simulated), 그리고 LLM을 이용해 생성된 답변(WixQA-Synthetic) 세 가지 데이터셋으로 구성되어 있으며, 기업 RAG 시스템의 검색 및 생성 성능을 종합적으로 평가할 수 있도록 설계되었습니다. MIT 라이선스 하에 KB 스냅샷과 데이터셋을 공개하고, 기준 성능 결과도 함께 제공합니다.

시사점, 한계점

시사점:
기업 환경의 현실적인 질문 응답 시스템 평가를 위한 새로운 벤치마크 제공
검색과 생성 성능을 종합적으로 평가 가능
실제 사용자 질문과 전문가 답변을 포함하여 현실적인 데이터셋 제공
공개된 지식 기반 스냅샷을 통해 재현성 있는 연구 가능
다양한 유형의 데이터셋(ExpertWritten, Simulated, Synthetic)을 통해 포괄적인 평가 가능
한계점:
Wix.com 특유의 도메인에 국한된 데이터셋으로 일반화 가능성에 대한 제한
LLM을 이용하여 생성된 합성 데이터셋의 품질에 대한 의존성
데이터셋의 규모가 다른 기존 대규모 QA 벤치마크에 비해 상대적으로 작을 수 있음
👍