Dans cet article, nous proposons une méthode visant à améliorer l'efficacité d'échantillonnage de l'apprentissage par renforcement (RL) en exploitant des données hors ligne pré-collectées de l'environnement source. Pour résoudre le problème que posent les méthodes existantes en raison des différences de dynamique de transition entre les environnements source et cible, nous présentons une nouvelle méthode appelée CompFlow. Basée sur le lien théorique entre l'appariement de flux et le transport optimal, CompFlow modélise la dynamique cible comme un flux conditionnel basé sur la distribution de sortie du flux du domaine source. Cela améliore les performances de généralisation de l'apprentissage de la dynamique cible et, en principe, estime la différence de dynamique à l'aide de la distance de Wasserstein entre les transitions source et cible. De plus, nous prouvons théoriquement que l'écart de performance par rapport à la politique optimale est réduit en introduisant une stratégie de collecte de données active optimiste qui privilégie l'exploration des zones présentant de grandes différences de dynamique. Les résultats expérimentaux montrent que CompFlow surpasse les méthodes de pointe existantes sur plusieurs benchmarks RL avec dynamique décalée.