본 논문은 정적 지식으로 인한 환각 현상에 취약한 대규모 언어 모델(LLM)의 한계를 극복하기 위해, 내부 및 외부 지식을 적응적으로 활용하도록 LLM을 훈련하는 새로운 프레임워크인 R1-Searcher++를 제안합니다. R1-Searcher++는 초기 SFT Cold-start 단계와 동적 지식 획득을 위한 강화 학습(RL) 단계의 두 단계 훈련 전략을 사용합니다. RL 단계는 탐색을 장려하기 위해 결과 감독을 사용하고, 내부 지식 활용에 대한 보상 메커니즘을 통합하며, 검색된 정보를 지속적으로 동화하여 모델의 내부 지식을 풍부하게 하는 기억 메커니즘을 통합합니다. 내부 지식과 외부 검색 엔진을 활용하여 모델은 지속적으로 기능을 향상시켜 효율적인 검색 증강 추론을 가능하게 합니다. 실험 결과, R1-Searcher++는 기존 RAG 및 추론 방법보다 성능이 우수하고 효율적인 검색을 달성함을 보여줍니다. 코드는 https://github.com/RUCAIBox/R1-Searcher-plus 에서 이용 가능합니다.