WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
Created by
Haebom
저자
Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
개요
WinT3R은 정확한 카메라 포즈와 고품질 포인트 맵을 실시간으로 예측할 수 있는 피드포워드 재구축 모델입니다. 기존 방법들은 재구축 품질과 실시간 성능 사이에서 상충 관계를 가지는 문제점이 있었습니다. WinT3R은 슬라이딩 윈도우 메커니즘을 도입하여 윈도우 내 프레임 간 충분한 정보 교환을 보장함으로써, 큰 계산량 없이 기하학적 예측의 품질을 향상시킵니다. 또한, 카메라의 컴팩트한 표현을 활용하고 글로벌 카메라 토큰 풀을 유지하여 효율성을 희생하지 않고 카메라 포즈 추정의 신뢰성을 높입니다. 다양한 데이터셋에 대한 광범위한 실험을 통해, WinT3R은 온라인 재구축 품질, 카메라 포즈 추정 및 재구축 속도 측면에서 최첨단 성능을 달성함을 검증했습니다. 코드와 모델은 https://github.com/LiZizun/WinT3R 에서 공개적으로 이용 가능합니다.