본 논문은 에이전트 기반 검색 증강 생성(RAG) 시스템의 비효율적인 검색 행동(과도한 검색 및 부족한 검색)을 정의하고 정량화합니다. 여러 질문응답 데이터셋과 에이전트 RAG 시스템에서 이러한 현상이 빈번하게 나타나는 것을 밝히고(예: 한 모델은 검색 단계의 27.7%에서 검색을 피할 수 있었음), 모델의 불확실성과 검색 효율성 사이의 중요한 연관성을 보여줍니다. 응답 정확도는 모델의 검색 결정에 대한 불확실성과 상관관계가 있습니다. 이 문제를 해결하기 위해, 신뢰도 임계값을 통합하여 높은 확신의 검색 결정을 보상하는 강화 학습 기반 훈련 방법인 β-GRPO를 제안합니다. 7개의 질문응답 벤치마크에 대한 실험 결과, β-GRPO는 3B 모델의 에이전트 RAG 능력을 향상시켜 다른 강력한 기준 모델보다 평균 정확 일치 점수가 4% 높은 성능을 보였습니다.