Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

Created by
  • Haebom

作者

Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye

概要

本稿では、知識ベースの視覚クエリ応答(KB-VQA)で視覚的理解と外部知識検索を統合する新しい3段階の方法であるWiki-PRFを提案します。この方法には、処理、検索、フィルタリングのステップが含まれており、エンハンスメント学習を通じて訓練された視覚言語モデルを活用して、クエリの精度、関連性のフィルタリング、結果の集中度を向上させます。 E-VQAとInfoSeekのベンチマークデータセットで優れたパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
KB-VQAで改善された回答品質(36.0、42.8)を達成し、SOTA性能を見せます。
ビジュアルツールを活用した正確なマルチモーダル情報抽出、マルチモーダル知識検索、関連性フィルタリングを統合する新しい方法論を提示します。
強化学習による視覚言語モデル訓練によるモデルの推論能力,ツール呼び出し能力,関連性フィルタリング能力の向上
Limitations:
具体的なLimitationsは論文の要約に記載されていません。 (追加の分析が必要)
コード( https://github.com/cqu-student/Wiki-PRF)で追加情報を確認できます。
👍