Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens
Created by
Haebom
저자
Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong
개요
본 논문은 기존의 원근 이미지로 학습된 기본 단안 깊이 추정기(FMDE)를 어안렌즈 이미지에 적용하는 방법을 제안합니다. 수천만 장의 이미지로 학습되었음에도 불구하고, FMDE는 카메라 보정(내부, 왜곡) 매개변수의 변화로 인한 공변량 이동에 취약하여 잘못된 깊이 추정을 초래합니다. 본 논문의 방법은 어안렌즈 이미지를 인코딩하는 잠재 임베딩의 분포를 원근 이미지의 분포에 맞춤으로써 재학습이나 미세 조정 없이 어안렌즈 카메라에 FMDE를 재사용할 수 있도록 합니다. 이를 위해, 잠재 임베딩을 조절하여 정렬하는 경량 적응 메커니즘으로 일련의 보정 토큰(Calibration Tokens)을 도입합니다. FMDE의 이미 표현력이 풍부한 잠재 공간을 활용하여, 임베딩을 조절함으로써 이미지 공간에서 기존의 재보정이나 표준 참조 프레임으로의 맵 투영에서 발생하는 인공물과 손실의 부정적인 영향을 피할 수 있다고 주장합니다. 본 방법은 자기 지도 학습 방식이며, 어안렌즈 이미지가 필요하지 않고 공개적으로 이용 가능한 대규모 원근 이미지 데이터셋을 활용합니다. 이는 원근 이미지를 어안렌즈 이미지로 재보정하고, 학습 중에 추정치 간의 일관성을 강화함으로써 수행됩니다. 실내 및 실외 환경에서 여러 FMDE를 사용하여 접근 방식을 평가한 결과, 단일 토큰 집합을 사용하여 최첨단 방법보다 일관되게 성능이 향상되었습니다. 코드는 GitHub에서 이용 가능합니다.