Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RAGSynth: Synthetic Data for Robust and Faithful RAG Component Optimization

Created by
  • Haebom

저자

Haiyang Shen, Hang Yan, Zhongshi Xing, Mugeng Liu, Yue Li, Zhiyang Chen, Yuxiang Wang, Jiuzheng Wang, Yun Ma

개요

RAG(Retrieval Augmented Generation)은 지식 집약적인 작업에서 LLMs의 성능을 향상시킬 수 있습니다. 기존의 RAG는 검색기와 생성기 두 가지 핵심 요소로 구성되지만, 검색기는 다양한 논리적 복잡성과 단서 완전성을 가진 질의에 어려움을 겪고, 생성기는 충실도 문제에 직면합니다. 본 논문에서는 검색기의 강건성과 생성기의 충실도를 향상시키기 위해 데이터 구성 모델링과 합성 데이터 생성 구현을 포함하는 RAGSynth 프레임워크를 제시합니다. 또한, 다양한 질의 복잡성, 단서 완전성 및 세분화된 인용 세부 정보를 특징으로 하는 4개 도메인에 걸쳐 8개의 도메인별 문서를 포함하는 SynthBench 벤치마크를 제시합니다. RAGSynth를 활용하여 단일 및 다중 홉을 포함하는 대규모 합성 데이터셋을 생성하고, 광범위한 실험을 통해 합성 데이터가 검색기의 강건성과 생성기의 충실도를 크게 향상시킨다는 것을 보여줍니다. 추가 평가는 RAGSynth가 다양한 도메인에서도 잘 일반화될 수 있음을 확인합니다. 최적화된 검색기를 다양한 RAG 패러다임에 통합함으로써 RAG 시스템 성능이 지속적으로 향상되는 것을 관찰했습니다. 구현은 https://github.com/EachSheep/RAGSynth 에서 공개되었습니다.

시사점, 한계점

시사점:
RAGSynth 프레임워크를 통해 검색기의 강건성과 생성기의 충실도를 향상시킬 수 있음을 실험적으로 증명.
SynthBench 벤치마크를 제공하여 다양한 RAG 모델의 성능을 평가할 수 있는 기반 마련.
다양한 도메인에서의 일반화 성능 확인.
RAG 시스템 성능 향상을 위한 효과적인 방법 제시.
코드 공개를 통해 재현성과 확장성 확보.
한계점:
SynthBench 벤치마크의 도메인 및 데이터셋 규모가 제한적일 수 있음.
합성 데이터의 품질이 실제 데이터와 완벽하게 일치하지 않을 수 있음.
특정 RAG 패러다임에 대한 의존성이 존재할 수 있음.
실제 세계 데이터셋에 대한 추가적인 검증 필요.
👍