RAGSynth: Synthetic Data for Robust and Faithful RAG Component Optimization
Created by
Haebom
저자
Haiyang Shen, Hang Yan, Zhongshi Xing, Mugeng Liu, Yue Li, Zhiyang Chen, Yuxiang Wang, Jiuzheng Wang, Yun Ma
개요
RAG(Retrieval Augmented Generation)은 지식 집약적인 작업에서 LLMs의 성능을 향상시킬 수 있습니다. 기존의 RAG는 검색기와 생성기 두 가지 핵심 요소로 구성되지만, 검색기는 다양한 논리적 복잡성과 단서 완전성을 가진 질의에 어려움을 겪고, 생성기는 충실도 문제에 직면합니다. 본 논문에서는 검색기의 강건성과 생성기의 충실도를 향상시키기 위해 데이터 구성 모델링과 합성 데이터 생성 구현을 포함하는 RAGSynth 프레임워크를 제시합니다. 또한, 다양한 질의 복잡성, 단서 완전성 및 세분화된 인용 세부 정보를 특징으로 하는 4개 도메인에 걸쳐 8개의 도메인별 문서를 포함하는 SynthBench 벤치마크를 제시합니다. RAGSynth를 활용하여 단일 및 다중 홉을 포함하는 대규모 합성 데이터셋을 생성하고, 광범위한 실험을 통해 합성 데이터가 검색기의 강건성과 생성기의 충실도를 크게 향상시킨다는 것을 보여줍니다. 추가 평가는 RAGSynth가 다양한 도메인에서도 잘 일반화될 수 있음을 확인합니다. 최적화된 검색기를 다양한 RAG 패러다임에 통합함으로써 RAG 시스템 성능이 지속적으로 향상되는 것을 관찰했습니다. 구현은 https://github.com/EachSheep/RAGSynth 에서 공개되었습니다.