Dong Zhuo, Wenzhao Zheng, Jiahe Guo, Yuqi Wu, Jie Zhou, Jiwen Lu
개요
본 논문은 비디오로부터 4D 시공간 기하 정보를 인지하고 재구성하는 과제를 다룬다. 실시간 상호작용 애플리케이션을 위해, 자기회귀적 대규모 언어 모델과 유사한 철학을 공유하는 스트리밍 4D 시각 기하 트랜스포머를 제안한다. 인과 트랜스포머 구조를 사용하여 입력 시퀀스를 온라인 방식으로 처리하는 단순하고 효율적인 설계를 탐구한다. 시간적 인과적 어텐션을 사용하고 과거 키와 값을 암시적 메모리로 캐싱하여 효율적인 스트리밍 장기 4D 재구성을 가능하게 한다. 이 설계는 높은 품질의 공간 일관성을 유지하면서 과거 정보를 점진적으로 통합하여 실시간 4D 재구성을 처리할 수 있다. 효율적인 훈련을 위해, 밀집 양방향 시각 기하 기반 트랜스포머(VGGT)로부터 인과 모델로 지식 증류를 제안한다. 추론을 위해, 본 모델은 대규모 언어 모델 분야에서 최적화된 효율적인 어텐션 연산자(예: FlashAttention)의 마이그레이션을 지원한다. 다양한 4D 기하 인지 벤치마크에 대한 광범위한 실험은 제안된 모델이 경쟁력 있는 성능을 유지하면서 온라인 시나리오에서 추론 속도를 높여 확장 가능하고 상호 작용적인 4D 비전 시스템을 위한 길을 열었다는 것을 보여준다. 코드는 https://github.com/wzzheng/StreamVGGT 에서 이용 가능하다.