본 논문은 시퀀셜 의사결정 과제에서 비전-언어 모델(VLMs)의 성능 향상을 위한 새로운 프레임워크인 GFlowVLM을 제시합니다. 기존의 지도 학습 미세조정(SFT)이나 PPO와 같은 강화학습 기법은 IID 데이터 가정이나 누적 보상 극대화에 집중하여 해의 다양성과 일반화 성능을 제한하는 한계를 지닙니다. GFlowVLM은 생성 흐름 네트워크(GFlowNets)를 이용하여 복잡한 추론 과제에 대한 다양한 해를 생성하도록 VLM을 미세조정합니다. 비마르코프 의사결정 과정으로 환경을 모델링하여 장기 의존성을 고려하며, 관측값과 과제 설명을 입력으로 받아 사고 과정(CoT) 추론을 유도하여 행동을 선택합니다. 과제 기반 보상을 사용하여 GFlowNets로 VLM을 미세조정하는 본 방법은 카드 게임(NumberLine, BlackJack) 및 구현 계획 과제(ALFWorld)에서 SFT 및 RL보다 향상된 훈련 효율, 해의 다양성, 그리고 분포 내외 모두에서 강화된 일반화 성능을 보여줍니다.