LARP는 자기회귀(AR) 생성 모델을 위한 새로운 비디오 토크나이저입니다. 기존의 패치 단위 토크나이저와 달리, 학습된 전체론적 쿼리를 사용하여 시각적 콘텐츠로부터 정보를 수집하는 전체론적 토크나이저 방식을 도입했습니다. 이를 통해 지역 패치 수준 정보에 국한되지 않고 보다 전역적이고 의미론적인 표현을 포착할 수 있습니다. 또한 임의의 개수의 이산 토큰을 지원하여 작업의 특정 요구 사항에 따라 적응적이고 효율적인 토크나이저를 제공합니다. 이산 토큰 공간을 하류 AR 생성 작업과 정렬하기 위해, LARP는 경량 AR 트랜스포머를 훈련 시간 사전 모델로 통합하여 이산 잠재 공간에서 다음 토큰을 예측합니다. 훈련 중 사전 모델을 통합함으로써, LARP는 비디오 재구성에 최적화될 뿐만 아니라 자기회귀 생성에 더 유리한 방식으로 구조화된 잠재 공간을 학습합니다. 또한 이 과정은 이산 토큰에 대한 순차적 순서를 정의하여 훈련 중 최적의 구성으로 점진적으로 밀어넣어 추론 시 더 부드럽고 정확한 AR 생성을 보장합니다. 포괄적인 실험을 통해 UCF101 조건부 비디오 생성 벤치마크에서 최첨단 FVD 성능을 달성함을 보여줍니다. LARP는 AR 모델과 비디오의 호환성을 향상시키고 통합된 고충실도 다중 모드 대규모 언어 모델(MLLM)을 구축할 가능성을 열어줍니다.