본 논문은 비디오 데이터로부터 동적인 자산을 재구성하는 문제를 다룹니다. 기존의 4D 재구성 방법들은 특정 카테고리에 국한된 모델이나 느린 최적화 기반 방법에 제한되어 있습니다. 본 논문에서는 대규모 재구성 모델(LRM)에서 영감을 얻어, 새로운 인과적 일관성 손실 함수로 안내되는 트랜스포머 기반 피드포워드 솔루션인 대규모 보간 모델(LIM)을 제시합니다. LIM은 시간 $t_0$과 $t_1$에서 주어진 암시적 3D 표현을 사용하여 $t\in[t_0,t_1]$의 연속적인 시간에서 변형된 형태를 생성하여 고품질의 보간 프레임을 몇 초 만에 제공합니다. 또한 LIM은 시간에 걸쳐 명시적인 메시 추적을 허용하여 기존 프로덕션 파이프라인에 통합할 수 있는 일관된 uv 텍스처 메시 시퀀스를 생성합니다. 본 논문에서는 단안 비디오로부터 동적인 4D 재구성을 생성하기 위해 확산 기반 다중 뷰 생성기와 함께 LIM을 사용합니다. 다양한 동적 데이터셋에서 LIM을 평가하고, 이미지 공간 보간 방법(예: FiLM) 및 직접 삼면 선형 보간과 비교하여 명확한 장점을 보여줍니다. 요약하자면, LIM은 다양한 카테고리에서 고속으로 추적된 4D 자산 재구성이 가능한 최초의 피드포워드 모델입니다.