Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

Created by
  • Haebom

저자

Yong Xie, Yunlian Sun, Hongwen Zhang, Yebin Liu, Jinhui Tang

개요

ReCoM은 음성에 동기화된 고충실도 및 일반화 가능한 인체 동작을 생성하기 위한 효율적인 프레임워크입니다. 핵심 혁신은 동적 임베딩 정규화(DER)를 비전 트랜스포머(ViT) 코어 아키텍처에 통합한 순환 임베디드 트랜스포머(RET)에 있습니다. 이 아키텍처는 공동 공간-시간 의존성 모델링을 가능하게 하여 일관된 동작 합성을 통해 제스처의 자연스러움과 충실도를 향상시킵니다. 모델의 견고성을 높이기 위해 제안된 DER 전략을 통합하여 노이즈 저항 및 도메인 간 일반화의 이중 기능을 모델에 제공하여 보이지 않는 음성 입력에 대한 제로샷 동작 생성의 자연스러움과 유창성을 향상시킵니다. 오류 누적 및 자체 수정 제한과 같은 자기 회귀 추론의 고유한 한계를 완화하기 위해 반복적 재구성 추론(IRI) 전략을 제안합니다. IRI는 두 가지 주요 구성 요소, 즉 (1) 분류기 없는 안내는 보조 감독 없이 생성된 제스처와 실제 제스처 간의 분포 정렬을 개선하고, (2) 시간적 평활화 프로세스는 운동학적 연속성을 보장하면서 갑작스러운 프레임 간 전이를 제거하여 동작 시퀀스를 순환 포즈 재구성을 통해 개선합니다. 벤치마크 데이터 세트에 대한 광범위한 실험은 ReCoM의 효과를 검증하고 지표 전반에 걸쳐 최첨단 성능을 달성합니다. 특히, Frechet Gesture Distance(FGD)를 18.70에서 2.48로 줄여 동작 현실감을 86.7% 향상시켰습니다.

시사점, 한계점

시사점:
음성에 동기화된 고품질 인체 동작 생성을 위한 효율적인 프레임워크 제시.
RET 및 DER을 통한 공간-시간 의존성 모델링으로 자연스러운 제스처 합성.
IRI 전략을 통한 자기 회귀 추론의 한계 극복 및 동작 생성 정확도 향상.
제로샷 동작 생성에서 우수한 성능 달성 (FGD 86.7% 향상).
한계점:
논문에서는 명시적으로 언급되지 않지만, 모델의 계산 복잡도 및 훈련 데이터 크기에 대한 한계점이 존재할 수 있음.
IRI 전략의 반복 횟수 및 매개변수 조정에 따른 성능 변화에 대한 추가 분석 필요.
다양한 음성 및 동작 스타일과의 일반화 성능에 대한 추가 연구 필요.
👍