Sign In

GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks

Created by
  • Haebom
Category
Empty

저자

Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee

개요

본 논문은 시퀀셜 의사결정 과제에서 비전-언어 모델(VLMs)의 성능 향상을 위한 새로운 프레임워크인 GFlowVLM을 제시합니다. 기존의 지도 학습 미세조정(SFT)이나 PPO와 같은 강화학습 기법은 IID 데이터 가정이나 누적 보상 극대화에 집중하여 해의 다양성과 일반화 성능을 제한하는 한계를 지닙니다. GFlowVLM은 생성 흐름 네트워크(GFlowNets)를 이용하여 복잡한 추론 과제에 대한 다양한 해를 생성하도록 VLM을 미세조정합니다. 비마르코프 의사결정 과정으로 환경을 모델링하여 장기 의존성을 고려하며, 관측값과 과제 설명을 입력으로 받아 사고 과정(CoT) 추론을 유도하여 행동을 선택합니다. 과제 기반 보상을 사용하여 GFlowNets로 VLM을 미세조정하는 본 방법은 카드 게임(NumberLine, BlackJack) 및 구현 계획 과제(ALFWorld)에서 SFT 및 RL보다 향상된 훈련 효율, 해의 다양성, 그리고 분포 내외 모두에서 강화된 일반화 성능을 보여줍니다.

시사점, 한계점

시사점:
GFlowNets 기반의 VLM 미세조정을 통해 다양하고 일반화된 해를 생성하는 새로운 프레임워크 제시
기존 SFT 및 RL 기반 방법 대비 향상된 훈련 효율, 해의 다양성, 일반화 성능을 실험적으로 검증
복잡한 추론 과제(카드 게임, 구현 계획)에서 우수한 성능을 입증
비마르코프 의사결정 과정을 고려하여 실제 응용에 적합
한계점:
GFlowNets의 복잡성으로 인한 계산 비용 증가 가능성
특정 유형의 과제에 대한 성능 평가에 국한되어 다른 유형의 과제에 대한 일반화 가능성 검증 필요
GFlowNets의 하이퍼파라미터 조정에 대한 추가적인 연구 필요
👍