[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis

Created by
  • Haebom

저자

Alexandre Symeonidis-Herzig, Ozge Mercano\u{g}lu Sincan, Richard Bowden

개요

본 논문은 인간-컴퓨터 상호작용 및 접근성 분야에서 표현력 있는 아바타 시스템을 위한 현실적이고 고충실도의 3D 얼굴 애니메이션 생성을 다룹니다. 기존 방법들의 메시 도메인 의존성으로 인한 한계를 극복하기 위해, 본 논문은 광학적 음성 인식을 지도 학습으로 사용하는 광학적 미분 가능 렌더링을 이용한 새로운 방법인 VisualSpeaker를 제안합니다. VisualSpeaker는 사전 훈련된 Visual Automatic Speech Recognition 모델을 통해 광학적 3D Gaussian Splatting 아바타 렌더링을 통과시켜 얻은 지각적 입술 읽기 손실 함수를 사용합니다. MEAD 데이터셋을 이용한 평가 결과, VisualSpeaker는 표준 Lip Vertex Error 지표를 56.1% 향상시키고 생성된 애니메이션의 지각적 품질을 개선하는 동시에 메시 기반 애니메이션의 제어 가능성을 유지합니다. 특히, 지각적 초점은 정확한 입 모양을 지원하여 수화 아바타에서 유사한 수동 신호를 구분하는 데 필수적인 단서를 제공합니다.

시사점, 한계점

시사점:
2D 컴퓨터 비전 및 그래픽스의 발전을 3D 얼굴 애니메이션에 효과적으로 활용하는 새로운 방법 제시.
지각적 입술 읽기 손실 함수를 도입하여 기존 방법보다 더욱 현실적이고 자연스러운 3D 얼굴 애니메이션 생성.
Lip Vertex Error 지표 개선 및 지각적 품질 향상을 통해 수화 아바타 등 다양한 애플리케이션에 활용 가능성 증대.
메시 기반 애니메이션의 제어 가능성 유지.
한계점:
MEAD 데이터셋에 대한 평가 결과만 제시되어 다른 데이터셋에 대한 일반화 성능은 불확실.
Visual Automatic Speech Recognition 모델의 성능에 의존적일 수 있음.
Gaussian Splatting 렌더링 기법의 계산 비용이 높을 수 있음.
👍