본 논문은 대규모 언어 모델(LLM)의 환각 문제를 해결하고 사실 정확도를 높이기 위해 외부 지식을 통합하는 검색 증강 생성(RAG) 시스템의 한계를 극복하는 새로운 방법인 R3-RAG를 제안합니다. 기존 RAG 시스템의 병목 현상인 밀집 검색기의 제한적인 매개변수와 단계적 추론의 어려움을 해결하기 위해, 강화 학습을 활용하여 LLM이 단계적으로 추론하고 검색하는 방법을 학습하도록 합니다. R3-RAG는 콜드 스타트를 통한 반복적인 추론 및 검색 방식 학습과 강화 학습을 통한 외부 검색 환경 탐색 능력 향상의 두 단계로 구성됩니다. 정답 정확성을 기반으로 하는 결과 보상과 관련성 기반 문서 검증을 통한 과정 보상 두 가지 보상 함수를 제안하여 모델이 관련 문서를 검색하고 정답을 도출하도록 유도합니다. 실험 결과, R3-RAG는 기존 방법보다 성능이 우수하며, 다양한 검색기에 적용 가능함을 보여줍니다. 소스 코드는 깃허브에 공개되었습니다.
시사점, 한계점
•
시사점:
◦
강화 학습 기반의 RAG 시스템 R3-RAG를 제안하여 기존 RAG 시스템의 한계를 극복.