본 논문은 검색 강화 생성(RAG) 시스템에서 검색 에이전트를 강화 학습(RL)을 통해 최적화하는 새로운 프레임워크인 s3를 제안합니다. 기존의 RAG 접근 방식은 검색 지표(예: NDCG)만을 최적화하거나, 전체 LLM을 미세 조정하여 검색과 생성을 얽히게 함으로써 실제 검색 유용성과 기존 모델과의 호환성을 제한하는 문제점을 가지고 있습니다. s3는 검색기와 생성기를 분리하고, Gain Beyond RAG 보상(기본 RAG 대비 생성 정확도 향상)을 사용하여 검색기를 학습함으로써 이러한 문제를 해결합니다. 소량의 데이터(2.4k)로도 기존 방식보다 우수한 성능을 보이며, 다양한 QA 벤치마크에서 성능 향상을 입증합니다.
시사점, 한계점
•
시사점:
◦
기존 RAG 시스템의 한계점인 검색 지표와 생성의 얽힘 문제를 해결하는 효율적인 프레임워크 제시.
◦
소량의 데이터로도 우수한 성능을 달성하여, 데이터 효율성 증대.
◦
모델 독립적인 구조로 다양한 LLM과 호환성 확보.
◦
일반적인 QA 및 의료 QA 벤치마크에서 성능 향상을 실험적으로 검증.
•
한계점:
◦
제안된 s3의 성능이 특정 벤치마크에 국한되어 일반화 성능에 대한 추가 검증 필요.
◦
Gain Beyond RAG 보상 함수의 설계가 특정 응용 분야에 최적화되어 있을 가능성 존재. 다른 유형의 과제에 대한 적용 가능성 검토 필요.
◦
2.4k의 데이터가 소량이라고 언급되었지만, 다른 접근법과의 비교 분석 및 데이터 크기에 따른 성능 변화 분석이 필요.