Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty

Created by
  • Haebom

저자

Peilin Wu, Mian Zhang, Xinlu Zhang, Xinya Du, Zhiyu Zoey Chen

Agentic Retrieval-Augmented Generation (RAG) 시스템의 검색 행동 분석 및 효율성 향상을 위한 $\beta$-GRPO 제안

개요

Agentic RAG 시스템은 동적, 다단계 추론 및 정보 검색을 통해 LLM을 향상시키지만, 과도한 검색(중복 정보 검색) 및 부족한 검색(필요한 정보 검색 실패)과 같은 비효율적인 검색 동작을 나타낼 수 있습니다. 본 연구에서는 이러한 동작을 정의하고 정량화하여 여러 QA 데이터셋과 agentic RAG 시스템에서 그 발생률을 밝혔습니다. 또한, 이러한 비효율성과 모델의 지식 경계에 대한 불확실성 간의 중요한 연관성을 확인했으며, 응답 정확도가 검색 결정에 대한 모델의 불확실성과 상관관계가 있음을 밝혔습니다. 이를 해결하기 위해, 높은 확실성의 검색 결정을 보상하는 신뢰도 임계값을 통합한 강화 학습 기반 훈련 방법인 $\beta$-GRPO를 제안했습니다. 7개의 QA 벤치마크에서 실험한 결과, $\beta$-GRPO는 3B 모델의 agentic RAG 능력을 향상시켜 다른 강력한 baseline을 능가하며, 평균 정확도 일치 점수가 4% 더 높았습니다.

시사점, 한계점

Agentic RAG 시스템의 검색 비효율성(과도 검색 및 부족 검색)을 정량적으로 분석했습니다.
검색 비효율성과 모델의 지식 경계에 대한 불확실성 간의 연관성을 밝혀냈습니다.
강화 학습 기반의 $\beta$-GRPO를 제안하여 검색 효율성과 성능을 향상시켰습니다.
3B 모델로 7개의 QA 벤치마크에서 우수한 성능을 달성했습니다.
구체적인 한계점은 논문에서 제시되지 않았습니다.
👍