본 논문은 확산 모델에서 목표 결과를 향한 샘플링을 유도하는 방법인 가이드(guidance)를 학습 과정에 통합하는 새로운 방법인 에너지 유도 흐름 매칭(energy-guided flow matching)을 제시합니다. 기존의 추론 단계에서 가이드를 필요로 하는 방식과 달리, 에너지 함수를 기반으로 조건부 속도장(conditional velocity field)을 학습하여 흐름 모델의 학습을 향상시킵니다. 특히 강화학습과 같이 데이터와 에너지 함수의 조합으로 목표 분포가 정의되는 작업에 적합하며, 다중 모드 행동 분포를 포착하는 확산 기반 정책의 표현력을 활용합니다. 이를 바탕으로, 샘플링 단계 수에 상관없이 일정한 정책 학습 시간을 갖는 오프라인 강화학습 알고리즘 FlowQ를 제안합니다.