本稿では、既存の3Dオブジェクト検出データセットの限界(狭いクラス分類と高コストの手動アノテーション)を克服するために、Webスケールの画像 - テキストペアで学習された2Dビジョン - 言語モデルを活用して、人が注釈を付けなかった3Dオブジェクト検出を実行する方法について説明します。 2Dビジョン - 言語検出器を使用してテキスト条件の提案を生成し、SAMを使用して分割し、カメラのジオメトリとLiDARまたは単眼医師の深さを使用して3Dに投影します。 DBSCANクラスタリングとRotating Calipersベースの幾何学的膨張戦略により、トレーニングなしで3Dバウンディングボックスを推論します。さらに、実際の環境の過酷な条件をシミュレートするために、霧が追加されたRGB専用のnuScenesデータセットのバリエーションであるPseudo-nuScenesを設定しました。 LiDARベースと純粋なRGB-D入力を含む複数の設定で競争力のある位置決め性能を達成し、トレーニングを必要とせず、オープンな語彙をサポートすることを実験を通して示しています。