Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

Created by
  • Haebom

作者

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

概要

RelayFormerは、画像とビデオで操作された領域を識別するVisual manipulation localization(VML)の問題を解決するための統合フレームワークです。解像度の多様性とモダリティのギャップの問題を解決するために、RelayFormerは入力画像を固定サイズの子画像に分割し、グローバルローカルリレー(GLR)トークンとグローバルローカルリレーアテンション(GLRA)メカニズムを導入して効率的なコンテキスト交換を可能にします。 RelayFormerは、任意の解像度とビデオシーケンスに自然に適用され、画像とビデオの両方に対して統一されたモデリングを提供します。

Takeaways、Limitations

解像度適応性:補間や過度のパディングなしでさまざまな解像度に適応して処理効率を向上させます。
統合モデリング:画像とビデオの両方に単一のモデルを使用します。
パフォーマンスと効率のバランス:精度と計算コストのバランスを保ち、SOTAパフォーマンスを達成します。
Limitations:具体的なLimitationsは論文で明示的に言及されていません。
👍