VLM6D는 컴퓨터 비전의 주요 과제인 6D 객체 포즈 추정 문제를 해결하기 위해 고안된 새로운 이중 스트림 아키텍처입니다. RGB-D 입력을 활용하여 시각적 데이터와 기하학적 데이터의 강점을 결합합니다. 특히, 사전 학습된 DINOv2 Vision Transformer를 사용하여 RGB 모달리티를 처리하여 텍스처 및 조명 변화에 강인하게 대처하고, PointNet++ 인코더를 통해 깊이 데이터에서 파생된 3D 포인트 클라우드를 처리하여 심각한 가림 현상에서도 강력한 기하학적 추론을 수행합니다. 이러한 두 가지 보완적인 특징 스트림을 융합하여 다중 작업 예측 헤드를 구축했습니다.