ReCoM은 음성에 동기화된 고충실도 및 일반화 가능한 인체 동작을 생성하기 위한 효율적인 프레임워크입니다. 핵심 혁신은 동적 임베딩 정규화(DER)를 비전 트랜스포머(ViT) 코어 아키텍처에 통합한 순환 임베디드 트랜스포머(RET)에 있습니다. 이 아키텍처는 공동 공간-시간 의존성 모델링을 가능하게 하여 일관된 동작 합성을 통해 제스처의 자연스러움과 충실도를 향상시킵니다. 모델의 견고성을 높이기 위해 제안된 DER 전략을 통합하여 노이즈 저항 및 도메인 간 일반화의 이중 기능을 모델에 제공하여 보이지 않는 음성 입력에 대한 제로샷 동작 생성의 자연스러움과 유창성을 향상시킵니다. 오류 누적 및 자체 수정 제한과 같은 자기 회귀 추론의 고유한 한계를 완화하기 위해 반복적 재구성 추론(IRI) 전략을 제안합니다. IRI는 두 가지 주요 구성 요소, 즉 (1) 분류기 없는 안내는 보조 감독 없이 생성된 제스처와 실제 제스처 간의 분포 정렬을 개선하고, (2) 시간적 평활화 프로세스는 운동학적 연속성을 보장하면서 갑작스러운 프레임 간 전이를 제거하여 동작 시퀀스를 순환 포즈 재구성을 통해 개선합니다. 벤치마크 데이터 세트에 대한 광범위한 실험은 ReCoM의 효과를 검증하고 지표 전반에 걸쳐 최첨단 성능을 달성합니다. 특히, Frechet Gesture Distance(FGD)를 18.70에서 2.48로 줄여 동작 현실감을 86.7% 향상시켰습니다.