SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Created by

Haebom

저자

Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake

💡 개요

본 논문은 실제 가정 로봇 훈련에 필요한 다양하고 물리적으로 복잡한 실내 환경을 생성하는 데 어려움이 있다는 문제를 인식하고, 자연어 프롬프트로부터 시뮬레이션 가능한 실내 환경을 생성하는 'SceneSmith'라는 계층적 에이전트 기반 프레임워크를 제안합니다. SceneSmith는 VLM(Vision-Language Model) 에이전트들이 설계자, 비평가, 조정자 역할을 수행하며 건축 레이아웃부터 가구 배치, 소형 객체 추가까지 단계별로 장면을 구성하고, 텍스트-투-3D 합성, 데이터셋 검색, 물리 속성 추정 등을 통합하여 사실적이고 로봇 시뮬레이션에 적합한 장면을 생성합니다.

🔑 시사점 및 한계

•

기존 방법론으로는 생성하기 어려웠던 복잡하고 현실적인 실내 환경을 자연어 지시를 통해 생성할 수 있습니다.

•

생성된 환경은 객체 충돌이 적고 물리적으로 안정적이며, 실제와 같은 높은 수준의 사실성과 프롬프트 충실도를 보여 로봇 정책 평가에 효과적으로 활용될 수 있습니다.

•

텍스트-투-3D 생성 모델의 성능 개선, 다양한 종류의 복잡한 상호작용 객체 (예: 열고 닫을 수 있는 서랍, 움직이는 문)에 대한 통합 강화, 그리고 더 넓은 범위의 건물 구조 (예: 여러 층, 복도) 생성 능력 향상이 향후 연구 과제입니다.

PDF 보기

Made with Slashpage