Sign In

Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity

Created by
  • Haebom
Category
Empty

저자

Xiaohao Xu, Feng Xue, Xiang Li, Haowei Li, Shusheng Yang, Tianyi Zhang, Matthew Johnson-Roberson, Xiaonan Huang

개요

본 논문은 투명한 장면과 같이 단일 심도 추정으로는 전체 3D 구조를 포착할 수 없는 공간 장면 이해에서 심도 모호성 문제를 해결하기 위해, 단일 예측에서 다중 가설 공간 기반 모델로의 패러다임 전환을 제시합니다. 먼저 다층 공간 관계 레이블과 새로운 지표를 통해 전문가 및 기본 모델의 심도 편향을 보여주는 벤치마크 MD-3k를 제시합니다. 심도 모호성을 해결하기 위해, 라플라스 변환된 RGB 입력을 통해 사전 훈련된 모델에서 숨겨진 심도를 추출하는 훈련이 필요 없는 스펙트럼 프롬프팅 기법인 Laplacian Visual Prompting (LVP)을 제안합니다. LVP로 추론된 심도를 표준 RGB 기반 추정치와 통합하여 모델 재훈련 없이 다층 심도를 유도합니다. 광범위한 실험을 통해 제로샷 다층 심도 추정에서 LVP의 효과를 검증하고, 보다 강력하고 포괄적인 기하학 조건부 시각적 생성, 3D 기반 공간 추론 및 시간적으로 일관된 비디오 수준 심도 추론을 가능하게 합니다. 벤치마크 및 코드는 https://github.com/Xiaohao-Xu/Ambiguity-in-Space 에서 제공될 예정입니다.

시사점, 한계점

시사점:
단일 심도 추정의 한계를 극복하고 다층 심도 추정을 가능하게 하는 새로운 패러다임 제시
훈련이 필요 없는 LVP 기법을 통해 사전 훈련된 모델을 활용한 효율적인 다층 심도 추정
다층 심도 정보를 활용한 향상된 시각적 생성, 공간 추론 및 비디오 심도 추론 성능
다층 심도 편향을 평가할 수 있는 새로운 벤치마크 MD-3k 제공
한계점:
LVP의 성능은 사전 훈련된 모델의 질에 의존적일 수 있음.
MD-3k 벤치마크의 데이터 범위가 제한적일 수 있음. (추가 데이터 필요성)
복잡한 장면이나 극심한 혼란이 있는 장면에서는 성능 저하 가능성 존재.
실제 환경의 다양한 조건에 대한 일반화 성능 검증 필요.
👍