Este artículo estudia el aprendizaje por refuerzo (AR) para una clase de problemas similares a los problemas de control lineal-cuadrático (LQ) estocásticos de tiempo continuo, analizados en Huang et al. (2024). El estado es un problema escalar, y la variabilidad depende tanto del estado como del control en ausencia de una recompensa por el control de ejecución. En este artículo, proponemos un mecanismo de búsqueda basado en datos y sin modelo que ajusta adaptativamente la regulación de entropía por parte del crítico y la divergencia de políticas por parte del agente. A diferencia de los programas de búsqueda fijos o deterministas utilizados en estudios previos (Huang et al., 2024), el enfoque de búsqueda adaptativa propuesto mejora la eficiencia del aprendizaje con ajustes mínimos. A pesar de su flexibilidad, nuestro método logra un límite de arrepentimiento cuasi-lineal que coincide con los mejores resultados sin modelo para esta clase de problemas LQ, que anteriormente solo se obtenían con programas de búsqueda fijos. Los experimentos numéricos muestran que la búsqueda adaptativa acelera la convergencia y mejora el rendimiento del arrepentimiento en comparación con los métodos no adaptativos basados en modelos y basados en modelos.