Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commons VQA Tasks

Created by
  • Haebom

作者

Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya

概要

本論文は、小型視覚言語モデル(SVLM)の常識的視覚クエリ応答(VQA)性能を向上させるためのエンドツーエンドフレームワーク(NLKI)を提示します。 NLKIは自然言語の事実を検索し、LLMを使用して自然言語の記述を生成し、これらの信号をsVLMに転送する方法で動作します。 ColBERTv2とオ​​ブジェクト情報の豊富なプロンプトを使用して事実を検索し、生成された説明は幻覚を減らし、精度を最大7%向上させます。また、ノイズに強い損失関数を使用した追加の微調整により、CRICデータセットで2.5%、AOKVQAデータセットで5.5%の精度向上を達成し、FLAVAなどのsVLMの性能をQwen-2 VL-2B、SmolVLM-2.5Bなどの中規模VLMレベルに引き上げます。この研究は、LLMベースの常識知識が常識知識ベース検索よりも効果的である場合、雑音認識学習が外部知識増強状況で小型モデルの安定性を高める方法、そして2億5000万パラメータモデルでもパラメータ効率的な常識推論が可能であることを示しています。

Takeaways、Limitations

Takeaways:
LLMベースの常識知識統合による小型視覚言語モデルの常識VQA性能の向上の可能性を提示
ノイズに強い損失関数を利用した微調整が小型モデルの性能向上に有効であることを確認した。
2億5千万パラメータモデルでもパラメータ効率的な常識推論が可能であることを見せる。
LLMを活用した常識知識の統合が常識知識ベース検索より効果的であることを示唆した。
Limitations:
使用されているデータセットにはラベルノイズの問題があり、それに関する追加の分析が必要です。
提案された方法の一般化性能のさらなる検証が必要である。
様々な種類のSVLMに対する実験が必要であり、モデルの特徴に応じた性能差解析が必要。
👍