Sign In

VLM6D: VLM based 6Dof Pose Estimation based on RGB-D Images

Created by
  • Haebom
Category
Empty

저자

Md Selim Sarowar, Sungho Kim

VLM6D: Robust 6D Object Pose Estimation with Dual-Stream Visual-Geometric Fusion

개요

VLM6D는 컴퓨터 비전의 주요 과제인 6D 객체 포즈 추정 문제를 해결하기 위해 고안된 새로운 이중 스트림 아키텍처입니다. RGB-D 입력을 활용하여 시각적 데이터와 기하학적 데이터의 강점을 결합합니다. 특히, 사전 학습된 DINOv2 Vision Transformer를 사용하여 RGB 모달리티를 처리하여 텍스처 및 조명 변화에 강인하게 대처하고, PointNet++ 인코더를 통해 깊이 데이터에서 파생된 3D 포인트 클라우드를 처리하여 심각한 가림 현상에서도 강력한 기하학적 추론을 수행합니다. 이러한 두 가지 보완적인 특징 스트림을 융합하여 다중 작업 예측 헤드를 구축했습니다.

시사점, 한계점

시사점:
RGB 및 깊이 데이터를 효과적으로 융합하여 6D 객체 포즈 추정의 정확성과 견고성을 향상시켰습니다.
텍스처, 조명 변화, 가림 현상에 강한 성능을 보입니다.
Occluded-LineMOD 데이터셋에서 새로운 SOTA 성능을 달성했습니다.
한계점:
논문에 구체적인 한계점에 대한 언급은 없습니다.
👍