Sign In

Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

Created by
  • Haebom
Category
Empty

저자

Sergey Linok, Tatiana Zemskova, Svetlana Ladanova, Roman Titkov, Dmitry Yudin, Maxim Monastyrny, Aleksei Valenkov

개요

본 논문은 자연어로 설명된 물체의 위치를 파악하는 문제를 해결하기 위해, 복잡한 객체 관계를 이해하는 모듈형 접근 방식인 BBQ(Beyond Bare Queries)를 제안합니다. BBQ는 계량적 및 의미적 공간적 에지를 갖는 3D 장면 그래프 표현을 구성하고, 추론적 장면 추론 알고리즘을 통해 대규모 언어 모델을 사람-대리자 인터페이스로 활용합니다. DINO 기반의 강력한 연관성을 사용하여 3D 객체 중심 맵을 구성하고, 고급 광선 추적 알고리즘과 2D 비전-언어 모델을 사용하여 그래프 노드로 설명합니다. Replica 및 ScanNet 데이터셋에서 BBQ는 다른 제로샷 방법에 비해 오픈 보캐뷸러리 3D 의미론적 분할에서 선두적인 성능을 보였으며, 특히 동일한 의미 클래스의 여러 개체가 있는 장면에서 공간 관계 활용의 효과가 뛰어남을 보여줍니다. Sr3D+, Nr3D, ScanRefer 벤치마크에서도 복잡한 질의를 통한 객체 접지에서 기존 최첨단 방법보다 상당한 향상을 보였으며, 로봇 온보드 컴퓨터에서의 실험에서 데이터 처리 속도가 크게 향상되었습니다. 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
복잡한 객체 관계를 이해하는 오픈 보캐뷸러리 3D 객체 접지 문제에 대한 새로운 접근 방식 제시.
DINO 기반의 강력한 연관성과 고급 광선 추적 알고리즘을 활용하여 효율적이고 정확한 3D 객체 중심 맵 생성.
대규모 언어 모델을 활용한 추론적 장면 추론 알고리즘으로 복잡한 질의에 대한 객체 접지 성능 향상.
로봇 온보드 컴퓨터에서의 효율적인 데이터 처리 속도를 통해 실제 로봇 응용 가능성 제시.
공개된 코드를 통해 연구의 재현성 및 확장성 확보.
한계점:
특정 데이터셋에 대한 성능 평가 결과만 제시되어, 다른 데이터셋이나 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
추론적 장면 추론 알고리즘의 복잡성으로 인한 계산 비용 증가 가능성.
대규모 언어 모델 의존성으로 인한 모델 크기 및 추론 시간 증가.
실제 로봇 시스템에서의 장기간 안정성 및 견고성에 대한 추가적인 평가 필요.
👍