Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MapAnything: Universal Feed-Forward Metric 3D Reconstruction

Created by
  • Haebom

作者

Nikhil Keetha, Norman M uller, Johannes Sch onberger, Lorenzo Porzi, Yuchen Zhang, Tobias Fischer, Arno Knapitsch, Duncan Zauss, Ethan Weber, Nelson Antunes, Jonathon Luiten, Manuel Lopez-Antequera, Samuel Rota Bul o, Christian Richard Kontschieder

概要

MapAnythingは、カメラの内部パラメータ、ポーズ、深さ、または部分的な再構成など、1つ以上の画像とオプションの幾何学的入力を受け入れる、統合されたトランスベースのフィードフォワードモデルです。このモデルは、メトリック3Dシーンジオメトリとカメラを直接回帰します。 MapAnythingは、マルチビューシーンジオメトリの因数分解表現(ディープマップ、ローカルレイマップ、カメラポーズ、およびメトリックスケールファクタのセット)を活用して、ローカル再構成をグローバルに一貫したメトリックフレームに効果的にアップグレードします。さまざまなデータセットの監督とトレーニングを標準化し、柔軟な入力拡張により、MapAnythingは非補正構造 - 運動、補正マルチビュー立体画像、単眼深度推定、カメラ位置決め、奥行き完成など、さまざまな3Dビジョン操作を単一のフィードフォワードパスとして処理できます。広範な実験分析とモデルのアブレーションにより、MapAnythingはプロフェッショナルなフィードフォワードモデルを上回るか、それと同等ながらより効率的な共同トレーニング動作を提供することが示され、ユニバーサル3D再構成バックボーンへの道が開かれました。

Takeaways、Limitations

Takeaways:
さまざまな3Dビジョン操作を単一の統合モデルとして処理可能
専門化されたフィードフォワードモデルと比較して優れたパフォーマンスまたは同等で、より効率的な共同トレーニングが可能
柔軟な入力拡張により、さまざまなデータセットに適用可能
汎用3D再構成バックボーンへの可能性の提示
Limitations:
本稿では具体的なLimitationsを明示的に述べていない。追加の実験と分析によってLimitationsを特定する必要があります。
実際のアプリケーション環境でのパフォーマンスと一般化能力の追加検証が必要です。
モデルの複雑さと計算コストの評価が必要
👍