Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Explain Before You Answer: A Survey on Compositional Visual Reasoning

Created by
  • Haebom

作者

Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

概要

本論文は、2023年から2025年まで発表された260本以上の論文を分析し、構成的な視覚的推論(Compositional Visual Reasoning)分野を総合的に眺めたアンケート論文です。構成的な視覚的推論とは、人間のように視覚的なシーンを分解し、中間概念に基づいて多段階の論理的推論を実行する能力を機械に与えることを目的としています。論文では、構成的アプローチの利点(認知的整列、意味的忠実度、堅牢性、解釈力、データ効率)を定義し、プロンプトベースの言語中心パイプラインからツールベースのLLMとVLM、思考連鎖推論、統合エージェントVLMまでの5段階のパラダイム変化を追跡します。また、60以上のベンチマークと指標を提示し、主要な洞察力、未解決の課題(LLMベースの推論の限界、幻覚、演繹的推論への偏り、拡張可能な監督、ツール統合、ベンチマーク限界など)および将来の方向(世界モデル統合、人間-AI協力的推論、さらに豊富な評価)

Takeaways、Limitations

Takeaways:
構成的視覚的推論の分野における体系的なレビューと総合分析の提供
5段階パラダイム変化による研究動向の把握
さまざまなベンチマークと指標を提示
構成的アプローチの利点と限界を明確に提示
今後の研究方向の提示
Limitations:
LLMベースの推論の限界
幻覚の問題
演繹的推論に対する偏り
スケーラブルな監督の欠如
ツール統合の難しさ
ベンチマークの限界
👍