[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop

Created by
  • Haebom

作者

Atharv Goel, Mehar Khurana

概要

本稿では、既存の3Dオブジェクト検出データセットの限界(狭いクラス分類と高コストの手動アノテーション)を克服するために、Webスケールの画像 - テキストペアで学習された2Dビジョン - 言語モデルを活用して、人が注釈を付けなかった3Dオブジェクト検出を実行する方法について説明します。 2Dビジョン - 言語検出器を使用してテキスト条件の提案を生成し、SAMを使用して分割し、カメラのジオメトリとLiDARまたは単眼医師の深さを使用して3Dに投影します。 DBSCANクラスタリングとRotating Calipersベースの幾何学的膨張戦略により、トレーニングなしで3Dバウンディングボックスを推論します。さらに、実際の環境の過酷な条件をシミュレートするために、霧が追加されたRGB専用のnuScenesデータセットのバリエーションであるPseudo-nuScenesを設定しました。 LiDARベースと純粋なRGB-D入力を含む複数の設定で競争力のある位置決め性能を達成し、トレーニングを必要とせず、オープンな語彙をサポートすることを実験を通して示しています。

Takeaways、Limitations

Takeaways:
2Dベースのモデルを活用して、トレーニングなしでオープンな語彙3Dオブジェクト検出が可能であることを示しています。
Web規模のデータを活用して3Dオブジェクト検出のスケーラビリティを高める可能性を提示。
LiDARとRGB-D入力の両方に適用可能な汎用的な方法論の提示
Pseudo-nuScenesデータセットを使用して、実際の環境の問題をシミュレートし、パフォーマンスを評価します。
コードとリソースを公開し、研究の再現性と拡張性を高めます。
Limitations:
2Dモデルの性能に依存しているため、2Dモデルの性能低下が3D検出性能に直接影響を与える可能性があります。
カメラの幾何学と奥行き情報に依存するため、正確な3D情報抽出に困難がある可能性があります。
Pseudo-nuScenesデータセットは実際の環境を完全に反映していない可能性があります。
幾何学的拡張戦略の精度によっては、3Dバウンディングボックスの精度が影響を受ける可能性があります。
👍