본 논문은 목표 분자를 구매 가능한 빌딩 블록으로 분해하는 역합성 계획 문제를 다룬다. 기존 방법의 취약점인 '가장 취약한 고리' 문제를 해결하기 위해, 역합성을 트리 구조의 마르코프 의사 결정 프로세스(MDP) 내에서의 최악 경로 최적화 문제로 재정의한다. 이 새로운 접근 방식을 통해, 단조로운 개선을 보장하는 고유한 최적 해를 갖는다. 저자들은 트리 MDP와 상호 작용하고, 최악의 경로 결과에 대한 가치 함수를 학습하며, 자체 모방을 통해 정책을 개선하는 Interactive Retrosynthesis Planning (InterRetro)를 제안한다. InterRetro는 Retro*-190 벤치마크에서 100%의 성공률을 달성하고, 합성 경로를 단축시키며, 적은 양의 훈련 데이터를 사용하여 유망한 성능을 보인다.