반응형 댄스 생성(RDG)은 공간적 조정과 시간적 일관성을 유지하면서 안내 댄서와 음악에 따라 추종자의 움직임을 생성합니다. 기존 방법들은 전역적 제약 조건과 최적화에 치중하여 미세한 공간적 상호 작용 및 국지적 시간적 맥락과 같은 지역 정보를 간과합니다. 본 논문에서는 장기간의 일관성과 다중 스케일 제어 가능성을 갖는 고충실도 RDG를 위한 새로운 확산 기반 프레임워크인 ReactDance를 제시합니다. 이중 생성에서 상호 작용 충실도, 동기화 및 시간적 일관성에 어려움을 겪는 기존 방법들과 달리, 본 연구는 두 가지 핵심적인 혁신을 도입합니다. 1) 조악한 신체 리듬에서 미세한 관절 역학에 이르기까지 상호 작용 의미를 포착하는 다중 스케일 분리된 동작 표현인 Group Residual Finite Scalar Quantization (GRFSQ)과 2) 국지적 블록 인과 마스킹 및 주기적 위치 인코딩을 통해 장기 시퀀스 생성에서 오류 누적을 제거하는 샘플링 전략인 Blockwise Local Context (BLC)입니다. 분리된 다중 스케일 GRFSQ 표현을 기반으로, 스케일 간의 동작 의미에 대한 세분화된 제어를 허용하는 Layer-Decoupled Classifier-free Guidance (LDCFG)를 사용하는 확산 모델을 구현했습니다. 표준 벤치마크에 대한 광범위한 실험은 ReactDance가 기존 방법을 능가하여 최첨단 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
고충실도의 장기간 일관성을 갖는 반응형 댄스 생성을 위한 새로운 확산 기반 프레임워크 ReactDance 제시.
◦
다중 스케일 분리된 동작 표현인 GRFSQ와 국지적 블록 인과 마스킹을 활용한 BLC 전략을 통해 기존 방법의 한계 극복.
◦
LDCFG를 통해 스케일 간 동작 의미에 대한 세분화된 제어 가능.
◦
표준 벤치마크에서 최첨단 성능 달성.
•
한계점:
◦
GRFSQ와 BLC의 일반화 성능 및 다른 유형의 댄스 생성 작업에 대한 적용성에 대한 추가 연구 필요.