Este artículo señala las limitaciones de los algoritmos de aprendizaje en línea existentes, que asumen la recuperación de todos los errores, y propone un nuevo problema de aprendizaje en línea que considera el caso en el que algunos errores son irreversibles y fatales. Definimos la recompensa de cada ronda como la probabilidad de evitar una catástrofe y buscamos maximizar el producto de las probabilidades de evitarla (probabilidad total de evitarla) dentro de un número limitado de consultas al mentor. Permitimos la transferencia de conocimiento entre entradas similares y demostramos que, en general, la tasa de consultas al mentor es lineal o la probabilidad de ocurrencia de una catástrofe es cercana a 1. Sin embargo, en un modelo en línea estándar, presentamos un algoritmo en el que la tasa de consultas al mentor y el arrepentimiento convergen a 0 a medida que aumenta el horizonte temporal en un entorno donde la clase de política del mentor es aprendible. Si bien nos centramos en el producto de las recompensas, también presentamos un límite para el arrepentimiento aditivo general. En esencia, demostramos que si una clase de política es aprendible en ausencia de riesgo fatal, es aprendible incluso en presencia de riesgo fatal si puede recibir ayuda de un mentor.