Latent Behavior Diffusion for Sequential Reaction Generation in Dyadic Setting
Created by
Haebom
저자
Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim
개요
본 논문은 대화 파트너의 행동과 일치하는 반응적인 얼굴 반응을 합성하는 이중 반응 생성 작업에 대해 제시한다. 자연스럽고 효과적인 인간과 같은 상호 작용 시뮬레이션을 향상시키기 위해, 문맥 인식 오토인코더와 확산 기반 조건부 생성기를 포함하는 잠재 행동 확산 모델(Latent Behavior Diffusion Model)이라는 새로운 접근 방식을 소개한다. 오토인코더는 고차원 입력 특징을 압축하여 청취자 반응의 역동적인 패턴을 포착하고 복잡한 입력 데이터를 간결한 잠재 표현으로 압축하여 더욱 표현력 있고 문맥적으로 적절한 반응 합성을 가능하게 한다. 확산 기반 조건부 생성기는 오토인코더에 의해 생성된 잠재 공간에서 비자동 회귀 방식으로 사실적인 얼굴 반응을 예측한다. 이러한 접근 방식을 통해 대화 단서와 감정 상태의 미묘한 변화를 반영하는 다양한 얼굴 반응을 생성할 수 있다. 실험 결과는 기존 방법과 비교하여 이중 반응 합성 작업에서 본 접근 방식의 효과를 보여준다.
시사점, 한계점
•
시사점:
◦
문맥 인식 오토인코더와 확산 기반 조건부 생성기를 결합하여 다양하고 문맥적으로 적절한 얼굴 반응 생성이 가능함을 보여줌.