본 연구에서는 분할 정복 패러다임에 기반한 새로운 가치 학습 알고리즘인 TRL(Transitive Reinforcement Learning)을 제시한다. TRL은 오프라인 목표 조건부 강화 학습(GCRL) 문제를 위해 설계되었으며, 임의의 상태에서 다른 임의의 상태로 도달하는 정책을 최소 단계로 찾는 것을 목표로 한다. TRL은 GCRL에 존재하는 삼각 부등식 구조를 실용적인 분할 정복 가치 업데이트 규칙으로 변환한다. TRL은 TD(Temporal Difference) 방법보다 편향 축적이 적고, 몬테 카를로 방법보다 분산이 적은 장점을 가진다. 실험적으로 TRL은 매우 어려운 장기간 벤치마크 작업에서 이전 오프라인 GCRL 알고리즘보다 뛰어난 성능을 달성했다.