SceneGenは、単一のシーン画像と対応するオブジェクトマスクを入力として受け取り、幾何学的情報とテクスチャを持つ複数の3Dアセットを同時に作成する新しいフレームワークです。最適化やアセット検索なしで動作し、視覚的および幾何学的エンコーダのローカルおよびグローバルシーン情報を統合する新しい機能集約モジュールを導入し、単一のフィードフォワードパスで3Dアセットと相対的な空間位置を生成します。単一の画像入力でのみ学習されたにもかかわらず、マルチ画像入力のシナリオに直接拡張することができ、定量的および定性的評価によって効率性と強力な生成能力を確認しました。 VR / ARおよび実装されたAI分野でのアプリケーションのために最近注目されている3Dコンテンツ生成の問題を解決する新しい解決策を提示します。