본 논문에서는 최초의 Stable Diffusion(SD) 기반 자기 지도 학습 단안 깊이 추정 프레임워크인 Jasmine을 제안합니다. Jasmine은 SD의 시각적 사전 지식을 활용하여 자기 지도 학습 예측의 선명도와 일반화 성능을 향상시킵니다. 기존 SD 기반 방법들은 밀집 예측을 위한 확산 모델 적용에 고정밀도 지도 학습이 필요하여 모두 지도 학습 방식이었습니다. 반면, 자기 지도 학습 재투영 방식은 폐색, 무늬 없는 영역, 조명 변화 등의 고유한 문제점으로 인해 예측 결과에 흐릿함과 인공물이 발생하여 SD의 잠재적 사전 지식을 심각하게 저해합니다. 이를 해결하기 위해, 본 논문에서는 혼합 이미지 재구성이라는 새로운 대리 과제를 구성합니다. 추가적인 지도 학습 없이도 이미지 자체를 재구성하여 SD 모델의 세부 정보 사전 지식을 유지하면서 깊이 추정의 저하를 방지합니다. 또한, SD의 스케일 및 시프트 불변 추정과 자기 지도 학습 스케일 불변 깊이 추정 간의 고유한 정렬 오류를 해결하기 위해 Scale-Shift GRU를 구축합니다. 이는 분포 간 차이를 해소할 뿐만 아니라 재투영 손실의 간섭으로부터 SD 출력의 미세한 질감을 분리합니다. 광범위한 실험을 통해 Jasmine이 KITTI 벤치마크에서 최첨단 성능을 달성하고 여러 데이터 세트에서 우수한 제로샷 일반화 성능을 보임을 보여줍니다.