본 논문은 표현력이 풍부한 flow-matching 정책을 활용하여 데이터 내 임의의 복잡한 행동 분포를 모델링하는 간단하고 성능이 뛰어난 오프라인 강화 학습(RL) 방법인 flow Q-learning (FQL)을 제시합니다. FQL은 행동 생성 과정의 반복적인 특성으로 인해 RL로 flow 정책을 훈련하는 것이 어려운 문제를 해결하기 위해, 반복적인 flow 정책을 직접적으로 가치를 극대화하도록 유도하는 대신, 표현력 있는 1단계 정책을 RL로 훈련합니다. 이를 통해 불안정한 재귀적 역전파를 완전히 피하고, 테스트 시 비용이 많이 드는 반복적인 행동 생성을 제거하면서도 표현력을 대부분 유지합니다. 실험적으로, FQL은 오프라인 RL과 오프라인에서 온라인으로의 RL에서 73개의 어려운 상태 및 픽셀 기반 OGBench 및 D4RL 작업에서 강력한 성능을 보여줍니다.