Este estudio construye un modelo de red booleana probabilístico dinámico utilizando datos del transcriptoma de biopsias tumorales de pacientes para comprender la red molecular subyacente a la resistencia innata a la inmunoterapia anti-PD-1 en el melanoma metastásico. Mediante un agente de aprendizaje por refuerzo, descubrimos sistemáticamente intervenciones terapéuticas óptimas de múltiples pasos e interpretamos mecánicamente la política de control del agente mediante inteligencia artificial explicable. Nuestro análisis revela que la inhibición transitoria de cuatro pasos, cronometrada con precisión, de la proteína tipo 2 de la lisil oxidasa (LOXL2) es la estrategia más eficaz. El análisis explicable muestra que estas intervenciones intermitentes son suficientes para eliminar las firmas moleculares que impulsan la resistencia, y que la red puede autocorregirse sin intervención continua. Este estudio presenta una novedosa hipótesis de tratamiento dependiente del tiempo para superar la resistencia a la inmunoterapia y proporciona un potente marco computacional para identificar protocolos de intervención poco claros en sistemas biológicos complejos.