Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

Created by
  • Haebom

作者

Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li

概要

本稿では、巨大リモートセンシングイメージ(RSI)の効率的な視覚言語理解のための新しい方法を紹介します。従来の巨大ビジュアル言語モデル(LVLM)は、画像処理に制限された事前定義されたグリッドを使用してギガピクセルRSI処理で情報損失を引き起こすという制限があります。これを解決するために、本論文では、動的画像ピラミッド(DIP)を組み込んだテキストガイドトークンの剪定方法を提案します。これは、領域集中モジュール(RFM)を介してテキスト認識領域の位置を特定する能力を活用して重要な視覚トークンを識別し、RFM出力に基づいて粗い画像タイルからきめ細かな画像タイルに選択および視覚トークン剪定を実行し、画像全体を直接処理することなく計算の複雑さを減らします。さらに、既存のLVLM評価ベンチマークの制限を克服するために、最大27,328ピクセルの画像長を持つ8つのカテゴリ、7,333個のQAペアを含む新しいベンチマークLRS-VQAを構築しました。提案された方法は、同じデータを使用する4つのデータセットで従来の高解像度戦略よりも優れたパフォーマンスを示し、高解像度設定で既存のトークン削減方法よりも高い効率を実証します。ソースコードとデータセットはFitHub( https://github.com/VisionXLab/LRS-VQA)で公開されています。

Takeaways、Limitations

Takeaways:
巨大遠隔検出画像の効率的な視覚言語の理解のための新しい方法を提示する。
動的画像ピラミッド(DIP)とテキストガイダンストークン剪定による計算の複雑さの低減と情報損失の最小化。
既存のベンチマークの限界を克服する新しい高解像度RSIクエリ応答ベンチマークLRS-VQAの構築。
従来の高解像度戦略とトークン削減方法に比べて優れた性能と効率性を実証
Limitations:
LRS-VQAベンチマークの汎用性と拡張性の追加検証が必要です。
提案された方法の様々な種類の巨大RSIの一般化性能評価が必要です。
RFMの性能への依存性が高い可能性があります。
👍