Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation

Created by
  • Haebom

作者

Ken Deng, Yunhan Yang, Jingxiang Sun, Xihui Liu, Yebin Liu, Ding Liang, Yan-Pei Cao

概要

GeoSAM2は、テクスチャのない3Dオブジェクトの部分分割のためのプロンプト制御可能なフレームワークです。事前定義された観点から法線マップとポイントマップをレンダリングし、単純な2Dプロンプト(クリックまたはボックス)を使用して部分選択を案内します。 LoRAと残差幾何学的融合によって強化された共有SAM2バックボーンは、プロンプトを処理して、事前訓練された辞書情報を維持しながらビュー固有の推論を可能にします。予測されたマスクはオブジェクトに逆投影され、ビュー全体に集約されます。この方法は、テキストプロンプト、フォーム固有の最適化、または完全な3Dラベルなしで細かい部分固有の制御を可能にします。グローバルなクラスタリングやスケールベースの方法とは異なり、プロンプトは明示的で空間的に基づいて解釈可能です。 PartObjaverse-TinyとPartNetEで最先端クラスの非依存パフォーマンスを達成し、低速の最適化ベースのパイプラインと高速で粗雑なフィードフォワードアプローチの両方を上回ります。これは、3D 分割のパラダイムを SAM2 と整列させることで、対話型の 2D 入力を活用し、オブジェクトレベルの部分理解で制御性と精度を高める新しいパラダイムを強調します。

Takeaways、Limitations

Takeaways:
テキストプロンプトなしで3Dオブジェクトを部分分割するための正確で制御可能なフレームワークを提供します。
2Dプロンプトを使用して、直感的で解釈可能な方法で部分選択を案内します。
最適化ベースの方法よりも高速で、粗雑なフィードフォワード方法よりも正確なパフォーマンスを示します。
PartObjaverse-TinyおよびPartNetEデータセットで最先端のパフォーマンスを達成しました。
3D分割のための新しいパラダイムを提示します。
Limitations:
現在、テクスチャのないオブジェクトに対してのみパフォーマンスが評価されました。テクスチャ付きオブジェクトのパフォーマンスにはさらに研究が必要です。
プロンプトの種類はクリックまたはボックスに制限されています。より多様なプロンプトタイプの拡張が必要な​​場合があります。
SAM2バックボーンに依存するため、バックボーンの制限はGeoSAM2のパフォーマンスに影響を与える可能性があります。
👍