El algoritmo AlphaZero/MuZero (A/MZ) ha alcanzado un éxito notable en diversos dominios desafiantes mediante la integración de Monte Carlo Tree Search (MCTS) con modelos aprendidos. Los modelos aprendidos introducen incertidumbre epistémica derivada del aprendizaje con datos limitados, lo cual resulta útil para la exploración en entornos de recompensa dispersa. Sin embargo, MCTS no tiene en cuenta la propagación de esta incertidumbre. Para abordar este problema, presentamos Epistemic MCTS (EMCTS), un enfoque con respaldo teórico que considera la incertidumbre epistémica en la exploración y aprovecha la exploración profunda. En una tarea compleja de recompensa dispersa que requiere codificación en lenguaje ensamblador {\sc subleq}, AZ con EMCTS logra una eficiencia de muestreo significativamente mayor que la AZ de referencia. La búsqueda con EMCTS resuelve una variante de Deep Sea, un parámetro de referencia de exploración difícil de uso común que A/MZ de referencia no puede resolver en la práctica, mucho más rápido que métodos equivalentes que no utilizan la búsqueda para la estimación de la incertidumbre, lo que demuestra la importante ventaja de la exploración para la estimación de la incertidumbre epistémica.