MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
Created by
Haebom
저자
Jan Skvrna, Lukas Neumann
개요
단일 RGB 카메라로부터 물체의 3D 위치와 방향을 추론하는 것은 많은 중요한 응용 분야를 가진 컴퓨터 비전의 기본적인 과제입니다. 기존의 3D 물체 탐지 방법들은 LiDAR와 방대한 양의 사람의 주석이 필요한 완전 감독 방식으로 훈련되는데, 이는 노동 집약적이고 비용이 많이 들며, 점점 증가하는 데이터 양에 잘 확장되지 않습니다. 본 논문에서는 도메인 특정 사람의 주석 없이 단일 RGB 카메라로부터 3D 물체 탐지기를 훈련하는 새로운 방법을 제시합니다. 이 방법은 새롭게 제안된 Local Object Motion Model을 사용하여 연속적인 프레임 간의 물체 이동 원인을 분리하고, 이전 작업보다 약 700배 빠르며, 여러 데이터셋을 집계하기 위해 카메라 초점 거리 차이를 보정합니다. 이 방법은 세 개의 공개 데이터셋에서 평가되었으며, 사람의 레이블을 사용하지 않고도 이전 작업보다 상당한 차이로 성능이 우수함을 보여줍니다. 또한 완전 감독 훈련을 위한 사전 훈련 도구로서의 다양성을 보여주며, 여러 데이터셋의 의사 레이블을 결합하면 단일 데이터셋의 사람 레이블을 사용하는 것과 비슷한 정확도를 달성할 수 있음을 보여줍니다. 소스 코드와 모델은 https://github.com/jskvrna/MonoSOWA 에서 이용 가능합니다.