JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
개요
본 논문은 밀집 예측을 위한 사전 훈련된 텍스트-이미지(T2I) 생성 모델의 시각적 사전 정보 활용에 대한 기존 연구를 바탕으로, 이미지 편집 모델이 T2I 생성 모델보다 밀집 기하 추정을 위한 미세 조정에 더 적합한 기반이 될 수 있다는 가설을 제시합니다. 이를 검증하기 위해 생성 모델과 편집 모델의 미세 조정 동작을 체계적으로 분석하여 편집 모델이 고유한 구조적 사전 정보를 가지고 있어 더 안정적으로 수렴하고 더 높은 성능을 달성함을 보여줍니다. 이러한 분석 결과를 바탕으로, Diffusion Transformer(DiT) 아키텍처 기반의 고급 편집 모델을 밀집 기하 예측에 적용하는 새로운 프레임워크인 FE2E를 제안합니다. FE2E는 편집 모델의 원래 흐름 일치 손실을 "일관된 속도" 훈련 목표로 재구성하고, 로그 양자화를 사용하여 정밀도 충돌을 해결하며, DiT의 전역적 주의 메커니즘을 활용하여 단일 전달 과정에서 깊이와 노말을 동시에 추정합니다. 대규모 데이터 확장 없이도 여러 데이터셋에서 제로샷 단안 깊이 및 노말 추정에 대한 놀라운 성능 향상을 달성하며, 특히 ETH3D 데이터셋에서 35% 이상의 성능 향상을 보이고 100배 많은 데이터로 훈련된 DepthAnything 시리즈를 능가합니다.
시사점, 한계점
•
시사점:
◦
이미지 편집 모델이 밀집 기하 추정과 같은 밀집 예측 작업에 더 적합한 기반임을 실험적으로 증명.
◦
Diffusion Transformer 기반의 편집 모델을 효과적으로 활용하여 제로샷 단안 깊이 및 노말 추정 성능을 크게 향상시키는 FE2E 프레임워크 제시.
◦
대규모 데이터 없이도 우수한 성능 달성 가능성을 제시.
◦
단일 전달 과정에서 깊이와 노말을 동시에 추정하는 효율적인 방법 제시.
•
한계점:
◦
FE2E의 성능 향상이 특정 데이터셋에 국한될 가능성.
◦
다른 유형의 밀집 예측 작업에 대한 일반화 성능 검증 필요.
◦
Diffusion Transformer 아키텍처에 대한 의존성. 다른 아키텍처로의 확장성 검토 필요.