단일 RGB 카메라로부터 물체의 3D 위치 및 방향을 추론하는 것은 많은 중요한 응용 분야를 가진 컴퓨터 비전의 기본적인 과제입니다. 기존의 3D 물체 탐지 방법은 LiDAR과 많은 양의 사람의 주석을 필요로 하는 완전 감독 설정에서 훈련되며, 이는 노동 집약적이고 비용이 많이 들며 증가하는 데이터 양에 따라 확장성이 떨어집니다. 본 논문에서는 도메인 특정 사람의 주석 없이 단일 RGB 카메라로부터 3D 물체 탐지기를 훈련하는 새로운 방법을 제시합니다. 이 방법은 새롭게 제안된 Local Object Motion Model을 사용하여 연속 프레임 간의 물체 움직임 원인을 분리하며, 이전 연구보다 약 700배 빠르고 여러 데이터셋을 집계하기 위해 카메라 초점 거리 차이를 보정합니다. 본 방법은 세 개의 공개 데이터셋에서 평가되었으며, 사람의 레이블을 사용하지 않음에도 불구하고 이전 연구보다 상당한 차이로 성능이 우수합니다. 또한 완전 감독 훈련을 위한 사전 훈련 도구로서의 다양성을 보여주며, 여러 데이터셋의 의사 레이블을 결합하면 단일 데이터셋의 사람 레이블을 사용하는 것과 비슷한 정확도를 달성할 수 있음을 보여줍니다. 소스 코드와 모델은 곧 공개될 예정입니다.