오프라인 강화 학습을 위한 새로운 정책을 제안하며, MeanFlow를 재구성하여 잡음을 직접 행동으로 매핑하는 단일 단계 생성 정책을 도입합니다. 이 방법은 Q-러닝과 호환되며, 복잡하고 다중 모드 행동 분포를 모델링할 수 있습니다. 기존의 플로우 기반 방법의 한계를 극복하기 위해, 속도장과 잡음-행동 변환을 단일 정책 네트워크에 통합하여 속도 추정의 필요성을 없앴습니다. 재구성 변형을 탐구하고 효과적인 잔차 구성을 찾아, 표현력 있고 안정적인 정책 학습을 지원합니다. 이 방법은 효율적인 단일 단계 잡음-행동 생성, 다중 모드 행동 분포의 표현적 모델링, 그리고 단일 단계 훈련 설정에서 Q-러닝을 통한 효율적이고 안정적인 정책 학습이라는 세 가지 주요 이점을 제공합니다. OGBench 및 D4RL 벤치마크의 73개 작업에 대한 광범위한 실험을 통해 오프라인 및 오프라인-온라인 강화 학습 설정 모두에서 강력한 성능을 달성함을 입증했습니다.