Sign In

URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model

Created by
  • Haebom
Category
Empty

저자

Zhe Li, Xiang Bai, Jieyu Zhang, Zhuangzhe Wu, Che Xu, Ying Li, Chengkai Hou, Shanghang Zhang

개요

본 논문은 3D 멀티모달 대규모 언어 모델(MLLM) 기반의 end-to-end 자동 재구성 프레임워크인 URDF-Anything을 제안한다. 이는 관절 객체의 정확한 디지털 트윈을 구축하기 위한 것으로, 기하학적 분할과 운동학적 파라미터 예측을 공동으로 최적화한다. Point cloud와 텍스트 멀티모달 입력을 기반으로 한 자동 회귀 예측 프레임워크를 사용하며, $[SEG]$ 토큰 메커니즘을 통해 세분화된 부분 수준 분할을 가능하게 한다. 실험 결과는 기존 접근 방식보다 기하학적 분할, 운동학적 파라미터 예측, 물리적 실행 가능성 측면에서 성능이 우수하며, 훈련 세트 외의 객체에 대해서도 뛰어난 일반화 능력을 보인다.

시사점, 한계점

시사점:
로봇 시뮬레이션 및 embodied AI world model building을 위한 효율적인 디지털 트윈 구축 솔루션 제공.
기존 방식 대비 기하학적 분할, 운동학적 파라미터 예측, 물리적 실행 가능성 측면에서 성능 향상.
훈련 데이터 외 객체에 대한 뛰어난 일반화 능력.
sim-to-real transfer 능력 향상에 기여.
한계점:
논문에 명시된 한계점 없음.
👍