Este artículo se centra en la cuantificación de la incertidumbre en el aprendizaje por refuerzo, en particular en el aprendizaje Q profundo bayesiano. A diferencia de estudios previos que se centraban principalmente en mejorar la precisión de las aproximaciones de la distribución posterior, este artículo investiga la precisión de la distribución a priori y los supuestos de verosimilitud que constituyen la distribución posterior. El artículo demuestra el "efecto posterior frío" en el aprendizaje Q profundo bayesiano, según el cual la reducción de la temperatura de la distribución posterior mejora el rendimiento, contrariamente a lo que se afirma en la teoría. Para dilucidar la causa de este fenómeno, verificamos los supuestos sobre la verosimilitud y las distribuciones a priori que se utilizan habitualmente en algoritmos bayesianos sin modelo, y demostramos experimentalmente que el supuesto de verosimilitud gaussiana se viola con frecuencia. Por consiguiente, desarrollar distribuciones a priori y de verosimilitud más adecuadas es crucial para la investigación futura en aprendizaje por refuerzo bayesiano, y proponemos un método para mejorar la distribución a priori en el aprendizaje Q profundo y así obtener un mejor rendimiento.