Este artículo propone Atom-Searcher, un novedoso marco de trabajo para mejorar las capacidades de resolución de problemas complejos de los modelos de lenguaje a gran escala (LLM). Para superar las limitaciones de los enfoques existentes de generación de búsqueda aumentada (RAG), nos centramos en el aprendizaje profundo basado en agentes, donde los LLM realizan de forma autónoma la inferencia, la búsqueda y la síntesis de información. Para abordar los desafíos inherentes a los enfoques de aprendizaje por refuerzo (RL) basado en resultados, como los gradientes conflictivos y la escasez de recompensas, presentamos Atomic Thought, un novedoso enfoque que descompone el proceso de inferencia en unidades funcionales de granularidad fina. Este enfoque acelera la convergencia hacia rutas de inferencia eficientes mediante el uso de Modelos de Recompensa por Razonamiento (RRM) y Recompensas de Pensamiento Atómico (ATR), que proporcionan una guía detallada para el proceso de inferencia. Un programa de recompensas basado en el currículo prioriza los ATR a nivel de proceso y realiza una transición gradual hacia recompensas a nivel de resultado. A través de siete experimentos de referencia, demostramos que nuestro enfoque supera los métodos de última generación existentes, demostrando la escalabilidad de los cálculos del tiempo de prueba, proporcionando un criterio de supervisión para los RRM y demostrando patrones de razonamiento más interpretables y similares a los humanos.