본 논문은 강화 학습(RL) 분야에서 사전 학습된 대규모 모델을 활용하는 방안을 제시합니다. 특히, 시간적 종속성이 중요한 RL 환경에서 미래 상태 예측을 위해 flow matching을 활용하는 확률적 모델인 InFOM(intention-conditioned flow occupancy models)을 제안합니다. InFOM은 사용자 의도를 파악하는 잠재 변수를 포함하여 모델의 표현력을 높이고 일반화된 정책 개선을 가능하게 합니다. 36개의 상태 기반 및 4개의 이미지 기반 벤치마크 작업을 통해 InFOM이 다른 사전 학습 방법보다 성능이 우수함을 입증했습니다.