본 논문은 모바일 기기에서 실시간으로 작동하는 경량화된 단일 샷 신경망 기반 헤드 아바타 생성 방법인 MobilePortrait을 제시합니다. 기존 방법들의 높은 연산 비용 문제를 해결하기 위해, 운동 모델링과 이미지 합성에 외부 지식을 통합하여 학습 복잡성을 줄였습니다. 명시적 및 암시적 키포인트의 혼합 표현을 사용하여 정확한 운동 모델링을 수행하고, 사전 계산된 시각적 특징을 이용하여 전경과 배경 합성을 향상시켰습니다. 단순한 U-Net을 백본으로 사용하여 최첨단 성능을 달성하면서 기존 방법보다 1/10 이하의 연산량으로 모바일 기기에서 100FPS 이상의 속도를 구현하고, 비디오 및 오디오 기반 입력 모두를 지원합니다.
시사점, 한계점
•
시사점:
◦
모바일 기기에서 실시간으로 작동하는 경량화된 헤드 아바타 생성 방법 제시
◦
기존 방법 대비 1/10 이하의 연산량으로 최첨단 성능 달성
◦
100FPS 이상의 속도로 비디오 및 오디오 기반 입력 지원
◦
외부 지식 통합을 통한 학습 복잡성 감소
•
한계점:
◦
현재 제시된 MobilePortrait의 성능은 특정 모바일 기기 환경에서 측정된 결과일 수 있으며, 다른 기기 환경에서는 성능 차이가 발생할 수 있음.
◦
단일 샷 방식의 한계로 인해 다양한 헤드 포즈 및 표정에 대한 일반화 성능이 제한적일 수 있음.