Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1

Created by
  • Haebom

저자

Xinhan Di, Kristin Qi, Pengqian Yu

개요

본 논문에서는 전신 움직임과 자연스러운 음성을 동시에 생성하는 데 어려움을 겪는 기존 확산 기반 비디오 생성 방법의 한계를 해결하기 위해, 2백만 개의 비디오 샘플과 1만 명의 고유한 신원을 포함하는 대규모 다중 모드 데이터셋인 JWB-DH-V1(Joint Whole-Body Talking Avatar and Speech Generation Version I)을 제시합니다. JWB-DH-V1은 전신 애니메이션 아바타의 공동 오디오-비디오 생성을 평가하기 위한 평가 프로토콜도 함께 제공합니다. 기존 최첨단 모델들을 평가한 결과, 얼굴/손 중심 성능과 전신 성능 간의 일관된 성능 차이를 발견하여 향후 연구의 중요한 영역을 제시합니다. 데이터셋과 평가 도구는 https://github.com/deepreasonings/WholeBodyBenchmark 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
전신 움직임과 음성 동시 생성의 어려움을 해결하기 위한 대규모 다중 모드 데이터셋 JWB-DH-V1 제공.
전신 애니메이션 아바타의 공동 오디오-비디오 생성 평가를 위한 새로운 평가 프로토콜 제시.
얼굴/손 중심 성능과 전신 성능 간의 성능 차이를 밝혀 향후 연구 방향 제시.
공개적으로 이용 가능한 데이터셋과 평가 도구 제공으로 연구 활성화에 기여.
한계점:
JWB-DH-V1 버전 1이라는 점에서, 향후 더욱 확장된 데이터셋의 필요성.
제시된 평가 프로토콜의 범용성 및 한계에 대한 추가적인 연구 필요.
특정 영역(예: 전신)에 대한 성능 분석에 대한 더욱 세밀한 연구 필요.
👍