Vision-Language Models (VLMs)의 시퀀셜 의사결정 과제 수행 능력 향상을 위해 기존의 Supervised Fine-Tuning (SFT) 및 Proximal Policy Optimization (PPO)와 같은 강화학습 기법의 한계를 극복하는 새로운 프레임워크인 GFlowVLM을 제시한다. GFlowVLM은 Generative Flow Networks (GFlowNets)를 사용하여 복잡한 추론 과제에 대한 다양한 해결책 생성을 유도하며, 비마르코프 의사결정 과정으로 환경을 모델링하여 장기적인 의존성을 고려한다. 관찰값과 과제 설명을 입력으로 받아 chain-of-thought (CoT) 추론을 유도하고, 과제 기반 보상을 사용하여 GFlowNets로 VLM을 미세 조정한다. NumberLine, BlackJack과 같은 카드 게임과 ALFWorld와 같은 구현 계획 과제에서 SFT 및 RL보다 향상된 훈련 효율성, 해결책 다양성 및 일반화 능력을 보여준다.