Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D

Created by
  • Haebom

作者

Mohamad Amin Mirzaei, Pantea Amoie, Ali Ekhterachian, Matin Mirzababaei, Babak Khalaj

概要

3Dシーンの理解は、実体化されたAIとロボット工学の中心であり、相互作用とナビゲーションのための信頼できる認識をサポートします。この論文は、ビジョン言語モデル(VLM)によって生成された2Dクラス不可知論マスクに埋め込みベクトルを割り当て、それを3Dに投影してゼロショット、オープンな語彙3Dセマンティクスマッピングを実行します。この研究は、SemanticSAMと段階的な粒度の改善を活用して、より正確で多くのオブジェクトレベルのマスクを生成し、マスク生成モデルでよく見られる過分割問題を軽減し、コンテキスト認識CLIPエンコーディング戦略を介して各マスクの複数のコンテキストビューを統合して視覚的コンテキストを豊富に提供します。さまざまな3Dシーンを理解する作業で提案されたアプローチの効果を評価し、従来の方法よりも大幅な改善を実証します。

Takeaways、Limitations

Takeaways:
改善されたオブジェクトレベルのマスクを生成するためのSemanticSAMと段階的粒度の改善を活用することで過分の問題を軽減
コンテキスト認識CLIPエンコーディング戦略による豊富なビジュアルコンテキストの提供
3Dセマンティクスの分割や言語クエリベースのオブジェクト検索など、複数の3Dシーンを理解する作業における従来の方法と比較して大幅なパフォーマンスを向上
Limitations:
論文に記載されている具体的なLimitationsはありません。
👍