OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding
Created by
Haebom
Category
Empty
저자
Artem Moroz, Vit Zeman, Martin Mik\v{s}ik, Elizaveta Isianova, Miroslav David, Pavel Burget, Varun Burde
개요
본 논문은 객체 감지와 자세 추정을 통합하는, 다재다능한 온보딩 프로세스를 갖춘 종단간(end-to-end) 프레임워크를 소개합니다. 이 프레임워크는 3D CAD 모델 또는 여러 뷰 이미지로부터 고품질의 신경 표현(NeRF)을 신속하게 재구성하여 객체 표현을 생성하는 온보딩 단계로 시작합니다. CNOS 감지기를 사용하여 대상 객체를 찾고, OPFormer라는 새로운 자세 추정 모듈을 통해 각 객체의 정확한 6D 자세를 추론합니다. OPFormer는 트랜스포머 기반 아키텍처를 사용하며, 여러 템플릿 뷰를 함께 인코딩하고 NOCS를 사용하여 명시적인 3D 기하학적 사전 정보를 활용하여 포괄적인 객체 표현을 학습합니다. 최종 자세를 결정하기 위해 디코더는 강력한 2D-3D 대응 관계를 구축합니다. BOP 벤치마크에서 평가된 이 통합 시스템은 정확성과 효율성 사이에서 균형을 이루며 모델 기반 및 모델 없는 시나리오 모두에서 실용적인 적용 가능성을 보여줍니다.
시사점, 한계점
•
객체 감지와 자세 추정을 통합하는 종단간 프레임워크 제시
•
3D CAD 모델 또는 NeRF를 활용한 다재다능한 온보딩 프로세스 제공
•
트랜스포머 기반 OPFormer를 통해 정확한 6D 자세 추정
•
BOP 벤치마크에서 우수한 정확도 및 효율성 입증
•
모델 기반 및 모델 없는 시나리오 모두에 적용 가능
•
구체적인 한계점은 논문에서 명시되지 않음 (일반적으로, 트랜스포머 기반 모델의 계산 복잡성, 훈련 데이터 의존성 등이 고려될 수 있음)