本論文はロボット学習のための大規模なシーンデータ生成の問題を扱う。既存のニューラルネットワークベースの再構成方法は、実際の環境に基づいて大規模な屋外シーンを再構成するのに役立ちますが、静的環境に限定され、シーンや軌跡の多様性が不足しているという制限があります。一方、最近の画像またはビデオ拡散モデルは制御可能性を提供するが、幾何学的基盤と因果関係が不足している。本研究は、これらの限界を克服するために、正確な幾何学情報を持つ大規模な3D走行シーンを直接生成する方法を提示する。提案された方法は、プロキシ幾何学および環境表現生成と学習された2D画像辞書情報からのスコア蒸留とを組み合わせて高い制御性を提供し、地図レイアウトを条件として現実的で幾何学的に一貫した複雑な走行シーンの3D生成を可能にする。