Dans cet article, nous construisons un modèle de réseau booléen probabiliste dynamique afin de comprendre le réseau moléculaire sous-jacent à la résistance innée à l'immunothérapie anti-PD-1 dans le mélanome métastatique, de découvrir systématiquement les interventions thérapeutiques optimales en plusieurs étapes à l'aide d'agents d'apprentissage par renforcement, et d'interpréter mécaniquement la politique de contrôle de l'agent grâce à l'intelligence artificielle explicative. Nos résultats révèlent qu'une inhibition transitoire en quatre étapes, précisément chronométrée, de la protéine lysyl oxydase-like 2 (LOXL2) est la stratégie la plus efficace. Une analyse explicative montre que de telles interventions « éclair » suffisent à effacer les signatures moléculaires à l'origine de la résistance, et que le réseau peut s'autocorriger sans intervention continue. Cette étude présente une nouvelle hypothèse thérapeutique temporelle pour surmonter la résistance à l'immunothérapie et fournit un cadre informatique puissant pour identifier les protocoles d'intervention flous dans les systèmes biologiques complexes.