본 논문은 실시간 상호작용이 가능한 디지털 인간 비디오 생성 프레임워크를 제시합니다. 기존 방법들의 높은 계산 비용과 제한적인 제어성 문제를 해결하기 위해, 저지연 추론이 가능한 자기회귀 비디오 생성 방식을 제안합니다. 대규모 언어 모델(LLM)을 최소한으로 수정하여 오디오, 포즈, 텍스트 등 다양한 조건부 인코딩을 받아들여, 확산 모델의 잡음 제거 과정을 안내하는 공간적, 의미적으로 일관된 표현을 출력합니다. 약 20,000시간 분량의 대규모 대화 데이터셋을 구축하여 모델 학습에 사용하며, 최대 64배의 압축률을 제공하는 심층 압축 오토인코더를 도입하여 자기회귀 모델의 장기 추론 부하를 효과적으로 줄입니다. 이를 통해 양방향 대화, 다국어 인간 합성, 상호 작용형 월드 모델 등 다양한 실험에서 저지연, 고효율, 세밀한 다중 모달 제어성을 보여줍니다.