Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Constructing a 3D Town from a Single Image

Created by
  • Haebom

저자

Kaizhi Zheng, Ruijian Zhang, Jing Gu, Jie Yang, Xin Eric Wang

개요

본 논문은 단일 상향식 이미지로부터 사실적이고 일관성 있는 3D 도시 장면을 합성하는 훈련 없이 동작하는 프레임워크인 3DTown을 제시한다. 기존 3D 생성 모델들이 객체 단위에서는 좋은 성과를 보이지만 전체 장면 생성에서는 기하학적 불일치, 레이아웃 환각, 낮은 품질의 메쉬 등의 문제점을 갖는다는 점을 지적하며, 이를 해결하기 위해 영역 기반 생성과 공간 인식 3D inpainting이라는 두 가지 원칙을 제시한다. 입력 이미지를 겹치는 영역으로 분할하고, 사전 훈련된 3D 객체 생성기를 사용하여 각 영역을 생성한 후, 마스크된 정류 흐름 inpainting 과정을 통해 누락된 기하학적 정보를 채우고 구조적 연속성을 유지한다. 이러한 모듈식 설계를 통해 해상도 병목 현상을 극복하고 3D 감독이나 미세 조정 없이 공간 구조를 보존한다. 다양한 장면에 대한 실험 결과, 3DTown은 Trellis, Hunyuan3D-2, TripoSG 등 최첨단 기준 모델보다 기하학적 품질, 공간 일관성, 질감 충실도 면에서 우수한 성능을 보였다.

시사점, 한계점

시사점:
단일 상향식 이미지만으로 고품질의 3D 도시 장면 생성이 가능함을 보여줌.
훈련이 필요 없는 프레임워크로, 데이터 수집 및 훈련 비용 절감 가능.
영역 기반 생성과 공간 인식 3D inpainting 기법을 통해 기존 모델의 한계점인 기하학적 불일치 및 낮은 품질 문제 해결.
모듈식 설계로 확장성 및 유연성 확보.
한계점:
상향식 이미지에만 의존하므로, 다른 시점의 정보를 활용하지 못함.
사전 훈련된 3D 객체 생성기에 의존하므로, 생성 가능한 객체의 종류에 제한이 있을 수 있음.
복잡하고 다양한 도시 환경에 대한 일반화 성능 평가가 추가적으로 필요함.
실제 환경 데이터와의 차이에 대한 분석 및 개선 필요.
👍