Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes

Created by
  • Haebom
Category
Empty

저자

Jungho Lee, Minhyeok Lee, Sunghun Yang, Minseok Kang, Sangyoun Lee

개요

SwiftVGGT는 3D 대규모 장면 재구성을 위한 훈련이 필요 없는 방법으로, 정확한 고밀도 3D 재구성을 유지하면서 추론 시간을 획기적으로 줄입니다. 대규모 장면에서 글로벌 일관성을 유지하기 위해 외부 Visual Place Recognition (VPR) 모델에 의존하지 않고 루프 클로저를 수행하여 중복 계산을 제거하고 정확한 재구성을 가능하게 합니다. 또한, 단일 Sim(3)-기반 특이값 분해(SVD) 단계를 사용하여 인접한 청크를 정렬하는 간단하지만 효과적인 포인트 샘플링 방법을 제안합니다. 이로 인해 이전 연구에서 일반적으로 사용되는 Iteratively Reweighted Least Squares (IRLS) 최적화가 필요 없어 상당한 속도 향상을 얻습니다. 여러 데이터 세트에서 SwiftVGGT를 평가한 결과, 최첨단 재구성 품질을 달성하면서 최근 VGGT 기반 대규모 재구성 접근 방식의 33%에 불과한 추론 시간을 요구합니다.

시사점, 한계점

시사점:
훈련이 필요 없는 3D 대규모 장면 재구성 방법 제시.
VPR 모델 없이 루프 클로저를 수행하여 정확한 재구성 및 글로벌 일관성 유지.
간단한 포인트 샘플링 및 SVD 기반 정렬을 통해 IRLS 최적화 회피 및 속도 향상.
최첨단 품질을 유지하면서 추론 시간 단축.
한계점:
논문 내용에 구체적인 한계점에 대한 언급 없음.
👍