Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks

Created by
  • Haebom
Category
Empty

저자

Haoqiang Kang, Enna Sachdeva, Piyush Gupta, Sangjae Bae, Kwonjoon Lee

개요

Vision-Language Models (VLMs)의 시퀀셜 의사결정 과제 수행 능력 향상을 위해 기존의 Supervised Fine-Tuning (SFT) 및 Proximal Policy Optimization (PPO)와 같은 강화학습 기법의 한계를 극복하는 새로운 프레임워크인 GFlowVLM을 제시한다. GFlowVLM은 Generative Flow Networks (GFlowNets)를 사용하여 복잡한 추론 과제에 대한 다양한 해결책 생성을 유도하며, 비마르코프 의사결정 과정으로 환경을 모델링하여 장기적인 의존성을 고려한다. 관찰값과 과제 설명을 입력으로 받아 chain-of-thought (CoT) 추론을 유도하고, 과제 기반 보상을 사용하여 GFlowNets로 VLM을 미세 조정한다. NumberLine, BlackJack과 같은 카드 게임과 ALFWorld와 같은 구현 계획 과제에서 SFT 및 RL보다 향상된 훈련 효율성, 해결책 다양성 및 일반화 능력을 보여준다.

시사점, 한계점

시사점:
기존 SFT와 RL 기반 VLM 미세조정 방법의 한계(IID 가정, 누적 보상 최대화)를 극복
GFlowNets 활용으로 다양하고 일반화된 해결책 생성
비마르코프 의사결정 과정 모델링으로 장기 의존성 고려 가능
카드 게임 및 구현 계획 과제에서 SFT 및 RL 기법 대비 우수한 성능 달성
향상된 훈련 효율성과 일반화 성능
한계점:
GFlowNets의 복잡성으로 인한 계산 비용 증가 가능성
특정 과제에 대한 성능 평가에 국한되어, 더욱 다양한 과제에 대한 일반화 성능 검증 필요
GFlowNets의 매개변수 조정에 대한 추가적인 연구 필요
실제 세계 적용을 위한 추가적인 확장성 연구 필요
👍