[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning

Created by
  • Haebom

作者

Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu

概要

この研究では、Chain-of-Thought(CoT)プロンプトと強化学習を通じて、視覚言語モデル(VLM)の空間推論能力を調査します。単純なCoTフォーマットはパフォーマンスを向上させるのに役立たないか、むしろパフォーマンスを低下させますが、視覚グラフベースの多段階構造化プロンプト(SceneGraph CoT)は空間推論精度を大幅に向上させることがわかりました。 Group Relative Policy Optimization(GRPO)を使用してSATデータセットでモデルを微調整し、CVBenchでパフォーマンスを評価しました。マップ学習微調整(SFT)と比較して、GRPOはPass @ 1評価でより高い精度を達成し、分布外(OOD)条件で優れた堅牢性を示します。特に、SFTは表面的な言語パターンに過剰に適合し、テスト時に構文が変更されると(たとえば、「closer to」から「farther from」に)パフォーマンスが低下する可能性がありますが、GRPOはより安定して一般化し、そのような変化にも安定したパフォーマンスを維持します。この研究は、強化学習と構造化されたプロンプトが最新のVLMの空間推論能力と一般化性能を向上させる方法についての洞察を提供します。すべてのコードはhttps://github.com/Yvonne511/spatial-vlm-investigatorで公開されています。

Takeaways、Limitations

Takeaways:
SceneGraph CoTプロンプトがVLMの空間推論性能を向上させることを明らかにした。
GRPOベースの強化学習により、SFTよりも高い精度とOOD堅牢性を達成。
SFTの過適合問題とGRPOの優れた一般化能力を提示
VLMの空間推論能力向上のための新しい方法論の提示
Limitations:
研究に使用されたデータセットとモデルの一般化の可能性に関するさらなる研究が必要です。
異なるタイプの空間推論問題に対するGRPOの性能評価の必要性
GRPOの計算コストと効率に関する追加分析の必要性
👍