본 논문은 단일 에이전트 기반의 자율적 심층 연구(Deep Research, DR) 모델 개발에 초점을 맞추고 있다. 기존의 다중 에이전트 시스템과 달리, 본 연구에서는 웹 크롤링과 파이썬 툴 통합을 최소화하면서 단일 에이전트가 상황에 따라 동적으로 다음 행동을 결정하는 자율적인 모델을 제시한다. 기존의 사전 훈련된 LLM 또는 지시어 튜닝된 LLM을 사용하는 대신, 추론에 최적화된 모델에 대한 지속적인 강화 학습(RL)을 통해 에이전트 능력을 향상시키는 방법을 제안한다. 전적으로 합성 데이터를 사용하는 간단한 RL 레시피를 다양한 오픈소스 LLM에 적용하여, 최고 성능을 달성한 SFR-DR-20B 모델은 Humanity's Last Exam 벤치마크에서 최대 28.7%의 성능을 보였다. 또한, 제시된 방법론에 대한 심층적인 분석 실험 결과도 함께 제시한다.