본 논문은 대규모 언어 모델(LLM) 기반 에이전트와 강화 학습 기반 추론 모델의 발전에 따라 강화 학습을 에이전트 프레임워크에 적용하는 연구가 새로운 연구 주제로 떠오르고 있음을 배경으로 합니다. 기존 연구들은 도구 호출 과정과 추론 과정을 동시에 결정해야 하는 어려움과, 도구로부터 얻은 원시 결과의 중복 정보 및 과제와 무관한 기호들에 의존하는 추론 체인으로 인해 모델의 추론 능력에 큰 부담을 안고 있었습니다. 이를 해결하기 위해 본 논문에서는 도구 호출 과정과 추론 과정을 분리하는 계층적 프레임워크인 Agent-as-tool을 제안합니다. 이는 모델이 언어적 추론 과정에 집중할 수 있도록 도구 호출 과정을 다른 에이전트가 처리하도록 합니다. 제안된 방법은 180개의 샘플에 대한 약간의 강화 학습 미세 조정만으로 기존 연구와 비슷한 결과를 달성했으며, Bamboogle에서 정확도 일치율 63.2%, 부분 일치율 75.2%를 달성하여 Search-R1보다 정확도 일치율 4.8%, 부분 일치율 3.2% 향상된 성능을 보였습니다.