본 논문은 검색 에이전트의 효율성과 정확성 간의 균형을 맞추기 위한 MemSearcher라는 새로운 에이전트 워크플로우를 제안한다. MemSearcher는 전체 상호작용 기록을 사용하는 대신, 컴팩트한 메모리를 유지하고 현재 턴과 결합하여, 계산 및 메모리 비용을 줄이면서도 중요한 정보를 보존한다. 또한, 멀티 컨텍스트 GRPO라는 end-to-end 강화 학습 프레임워크를 도입하여 추론, 검색 전략, 메모리 관리를 공동으로 최적화한다. 그 결과, 여러 벤치마크에서 기존 모델 대비 높은 성능 향상을 달성했으며, 특히 3B 모델이 7B 모델보다 우수한 성능을 보이기도 했다.