본 논문은 텍스트 기반 인간-객체 상호작용(Text-to-HOI) 생성 분야에서 장시간 시퀀스의 상호작용 일관성 유지를 위한 새로운 방법을 제시합니다. 기존의 Text-to-Motion 기반 접근 방식의 한계를 극복하기 위해, 자기회귀 확산 모델(ARDHOI)을 제안합니다. ARDHOI는 물리적으로 타당한 연속적인 HOI 토큰 공간을 학습하는 대조적 변이적 오토인코더(cVAE)와 일관된 순차적 행동을 포착하고 유지하는 Mamba 기반 컨텍스트 인코더, 그리고 MLP 기반 디노이저를 사용하여 다음 연속 토큰을 예측합니다. OMOMO 및 BEHAVE 데이터셋에서 기존 최첨단 방법보다 성능과 추론 속도 모두에서 우수한 결과를 보였습니다.