Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards General Continuous Memory for Vision-Language Models

Created by
  • Haebom

作者

Wenyi Wu, Zixuan Song, Kun Zhou, Yifei Shao, Zhiting Hu, Biwei Huang

概要

本稿では、複雑な推論作業を実行するのが困難な既存の言語モデル(LM)と視覚言語モデル(VLM)の限界を解決するために、マルチモーダルおよび多言語の実世界の知識を効率的に提供する外部メモリシステムを提案します。従来のアプローチは画像とテキストトークンを長いシーケンスで結びつけていますが、この論文では、密集した埋め込みの簡潔な集合である連続メモリを使用して、マルチモーダルと多言語の知識をより効果的かつ効率的に表現します。重要なアイデアは、VLM自体が連続メモリエンコーダとして機能できることです。これにより、複雑なマルチモーダル推論操作のパフォーマンスが向上し、モデルパラメータの1.2%と15.6Kの自己合成サンプルのみを使用して、VLMをメモリエンコーダに微調整するデータとパラメータの効率的な方法が提供されます。 CoMEMと呼ばれる提案された方法は、任意のマルチモーダルおよび多言語知識を8つの連続した埋め込みにエンコードします。 8つのマルチモーダル推論ベンチマークの広範な実験を通して、このアプローチの効果を実証します。

Takeaways、Limitations

Takeaways:
VLMを効率的に活用した連続メモリシステムによる複雑なマルチモーダル推論タスクの性能向上
データとパラメータの効率的な微調整方法の提示
プラグアンドプレイ方式のモジュールで柔軟に統合可能。
多様なマルチモーダル推論ベンチマークにおける効果を実証
Limitations:
自己合成データに依存する微調整法の一般化性能の更なる検証の必要性
連続メモリのサイズ(8つの埋め込み)があらゆる種類の複雑な推論作業に十分であるかどうかについてのさらなる研究が必要です。
特定のVLMアーキテクチャへの依存が存在する可能性。
👍