Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty

Created by
  • Haebom

저자

Peilin Wu, Mian Zhang, Xinlu Zhang, Xinya Du, Zhiyu Zoey Chen

개요

본 논문은 에이전트 기반 검색 증강 생성(RAG) 시스템의 비효율적인 검색 행동(과도한 검색 및 부족한 검색)을 정의하고 정량화합니다. 여러 질문응답 데이터셋과 에이전트 RAG 시스템에서 이러한 현상이 빈번하게 나타나는 것을 밝히고(예: 한 모델은 검색 단계의 27.7%에서 검색을 피할 수 있었음), 모델의 불확실성과 검색 효율성 사이의 중요한 연관성을 보여줍니다. 응답 정확도는 모델의 검색 결정에 대한 불확실성과 상관관계가 있습니다. 이 문제를 해결하기 위해, 신뢰도 임계값을 통합하여 높은 확신의 검색 결정을 보상하는 강화 학습 기반 훈련 방법인 β-GRPO를 제안합니다. 7개의 질문응답 벤치마크에 대한 실험 결과, β-GRPO는 3B 모델의 에이전트 RAG 능력을 향상시켜 다른 강력한 기준 모델보다 평균 정확 일치 점수가 4% 높은 성능을 보였습니다.

시사점, 한계점

시사점:
에이전트 RAG 시스템의 과도한 검색 및 부족한 검색 문제를 정량적으로 분석하고 그 원인을 밝힘.
모델의 불확실성과 검색 효율성 간의 상관관계를 제시.
β-GRPO라는 효과적인 강화 학습 기반 훈련 방법을 제안하고 성능 향상을 입증.
더 효율적이고 신뢰할 수 있는 에이전트 RAG 시스템 개발 가능성 제시.
한계점:
제안된 β-GRPO의 일반화 성능에 대한 추가 연구 필요.
다양한 크기의 LLM에 대한 β-GRPO의 효과 분석 필요.
실험에 사용된 벤치마크 데이터셋의 한계 고려 필요.
β-GRPO의 계산 비용 및 복잡도에 대한 평가 필요.
👍