본 논문은 소스 환경의 사전 수집된 오프라인 데이터를 활용하여 강화 학습(RL)의 샘플 효율성을 향상시키는 방법을 제안합니다. 소스 환경과 타겟 환경 간의 전이 역학 차이로 인해 기존 방법들이 어려움을 겪는 문제를 해결하기 위해, CompFlow라는 새로운 방법을 제시합니다. CompFlow는 흐름 일치와 최적 수송 간의 이론적 연관성에 기반하여 타겟 역학을 소스 도메인 흐름의 출력 분포를 기반으로 하는 조건부 흐름으로 모델링합니다. 이를 통해 타겟 역학 학습의 일반화 성능을 향상시키고, 소스와 타겟 전이 간의 Wasserstein 거리를 이용하여 역학 차이를 원칙적으로 추정합니다. 또한, 역학 차이가 큰 영역에서 탐색을 우선시하는 낙관적인 능동 데이터 수집 전략을 도입하여 최적 정책과의 성능 차이를 줄이는 것을 이론적으로 증명합니다. 실험 결과, CompFlow는 역학이 이동된 여러 RL 벤치마크에서 기존 최고 성능 방법들을 능가하는 성능을 보입니다.