SceneGen은 단일 장면 이미지와 해당 객체 마스크를 입력으로 받아 기하학적 정보와 질감을 가진 여러 3D 자산을 동시에 생성하는 새로운 프레임워크입니다. 최적화나 자산 검색 없이 작동하며, 시각적 및 기하학적 인코더의 지역 및 전역 장면 정보를 통합하는 새로운 특징 집계 모듈을 도입하여 단일 피드포워드 패스에서 3D 자산과 상대적 공간 위치를 생성합니다. 단일 이미지 입력으로만 학습되었음에도 불구하고, 다중 이미지 입력 시나리오로 직접 확장이 가능하며, 정량적 및 정성적 평가를 통해 효율성과 강력한 생성 능력을 확인했습니다. VR/AR 및 구현된 AI 분야에서의 응용을 위해 최근 주목받고 있는 3D 콘텐츠 생성 문제를 해결하는 새로운 해결책을 제시합니다.