この論文は、単一エージェントベースの自律的深層研究(Deep Research、DR)モデルの開発に焦点を当てています。従来のマルチエージェントシステムとは異なり、本研究では、WebクロールとPythonツールの統合を最小限に抑えながら、単一エージェントが状況に応じて動的に次の動作を決定する自律モデルを提示します。既存の事前訓練されたLLMまたはディレクティブにチューニングされたLLMを使用する代わりに、推論に最適化されたモデルの継続的な強化学習(RL)を通じてエージェントの能力を向上させる方法を提案します。完全に合成データを使用したシンプルなRLレシピを様々なオープンソースLLMに適用し、最高性能を達成したSFR-DR-20BモデルはHumanity's Last Examベンチマークで最大28.7%の性能を示した。さらに、提示された方法論の詳細な分析実験結果も一緒に提示される。