Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation

Created by
  • Haebom
Category
Empty

저자

Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao

개요

본 논문에서는 최초의 Stable Diffusion(SD) 기반 자기 지도 학습 단안 깊이 추정 프레임워크인 Jasmine을 제안합니다. Jasmine은 SD의 시각적 사전 지식을 활용하여 자기 지도 학습 예측의 선명도와 일반화 성능을 향상시킵니다. 기존 SD 기반 방법들은 밀집 예측을 위한 확산 모델 적용에 고정밀도 지도 학습이 필요하여 모두 지도 학습 방식이었습니다. 반면, 자기 지도 학습 재투영 방식은 폐색, 무늬 없는 영역, 조명 변화 등의 고유한 문제점으로 인해 예측 결과에 흐릿함과 인공물이 발생하여 SD의 잠재적 사전 지식을 심각하게 저해합니다. 이를 해결하기 위해, 본 논문에서는 혼합 이미지 재구성이라는 새로운 대리 과제를 구성합니다. 추가적인 지도 학습 없이도 이미지 자체를 재구성하여 SD 모델의 세부 정보 사전 지식을 유지하면서 깊이 추정의 저하를 방지합니다. 또한, SD의 스케일 및 시프트 불변 추정과 자기 지도 학습 스케일 불변 깊이 추정 간의 고유한 정렬 오류를 해결하기 위해 Scale-Shift GRU를 구축합니다. 이는 분포 간 차이를 해소할 뿐만 아니라 재투영 손실의 간섭으로부터 SD 출력의 미세한 질감을 분리합니다. 광범위한 실험을 통해 Jasmine이 KITTI 벤치마크에서 최첨단 성능을 달성하고 여러 데이터 세트에서 우수한 제로샷 일반화 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
Stable Diffusion을 활용한 최초의 자기 지도 학습 기반 단안 깊이 추정 프레임워크 제시
SD의 시각적 사전 지식을 활용하여 자기 지도 학습의 성능 향상
혼합 이미지 재구성 및 Scale-Shift GRU를 통해 기존 자기 지도 학습 방식의 한계점 극복
KITTI 벤치마크에서 최첨단 성능 달성 및 우수한 제로샷 일반화 성능 확인
한계점:
본 논문에서 제시된 방법의 계산 비용 및 효율성에 대한 자세한 분석 부족
다양한 환경 및 조건에서의 일반화 성능에 대한 추가적인 검증 필요
Scale-Shift GRU의 설계 및 작동 원리에 대한 더욱 상세한 설명 필요
다른 최첨단 단안 깊이 추정 방법과의 비교 분석이 더욱 심도 있게 이루어져야 함
👍