Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

Created by
  • Haebom

저자

Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bomer, Mario Bijelic, Felix Heide

개요

본 논문은 로봇 학습을 위한 대규모 장면 데이터 생성 문제를 다룬다. 기존의 신경망 기반 재구성 방법은 실제 환경을 기반으로 한 대규모 야외 장면을 재구성하는 데 유용하지만, 정적 환경에 제한되고 장면 및 궤적 다양성이 부족하다는 한계가 있다. 반면, 최근의 이미지 또는 비디오 확산 모델은 제어 가능성을 제공하지만 기하학적 기반과 인과 관계가 부족하다. 본 연구는 이러한 한계를 극복하기 위해 정확한 기하학 정보를 갖는 대규모 3D 주행 장면을 직접 생성하는 방법을 제시한다. 제안된 방법은 프록시 기하 및 환경 표현 생성과 학습된 2D 이미지 사전 정보로부터의 점수 증류를 결합하여 높은 제어성을 제공하며, 지도 레이아웃을 조건으로 현실적이고 기하학적으로 일관된 복잡한 주행 장면의 3D 생성을 가능하게 한다.

시사점, 한계점

시사점:
정확한 기하학 정보를 갖는 대규모 3D 주행 장면을 직접 생성하는 새로운 방법 제시
높은 제어성을 제공하여 프롬프트 기반 기하학 및 고충실도 텍스처 및 구조 생성 가능
지도 레이아웃을 조건으로 현실적이고 기하학적으로 일관된 3D 생성 가능
객체 영속성 및 명시적 3D 기하 추정을 통한 인과적 새로운 뷰 합성 가능
한계점:
제안된 방법의 성능 평가에 대한 구체적인 내용 부족
대규모 데이터셋에 대한 일반화 성능에 대한 검증 필요
실제 로봇 시스템에 적용 가능성에 대한 추가 연구 필요
👍