본 논문은 대규모 언어 모델(LLM)과 검색 엔진을 통합하여 LLM의 내부 사전 훈련 지식과 외부 정보를 활용하는 연구에 대해 다룹니다. 특히, 강화 학습(RL)을 통해 검색 엔진과의 다회차 상호작용으로 LLM 추론을 향상시키는 방법을 제안합니다. 기존 RL 기반 검색 에이전트는 검색 계획과 질문 답변(QA) 작업을 모두 처리하는 단일 LLM에 의존하여 두 가지 기능을 동시에 최적화하는 데 한계가 있습니다. 본 논문에서는 고품질 QA를 보장하기 위해 큰, 고정된 LLM을 사용하는 정교한 AI 검색 시스템의 현실적인 접근 방식을 고려하여, 검색 계획에 전념하는 작고 훈련 가능한 LLM을 활용하는 새로운 강화 학습 프레임워크인 AI-SearchPlanner를 제안합니다. AI-SearchPlanner는 검색 계획자와 생성기의 아키텍처 분리, 검색 계획을 위한 이중 보상 정렬, 계획 유틸리티와 비용의 파레토 최적화라는 세 가지 핵심 혁신을 통해 고정된 QA 모델의 성능을 향상시킵니다. 실제 데이터셋에 대한 광범위한 실험을 통해 AI-SearchPlanner가 기존 RL 기반 검색 에이전트보다 효율성과 효과성 모두에서 우수하며 다양한 고정된 QA 모델과 데이터 도메인에서 강력한 일반화 능력을 보임을 보여줍니다.