Sign Language Video Generation (SLVG) 연구는 음성 언어 텍스트로부터 정체성을 보존하는 수화 비디오를 생성하는 것을 목표로 한다. 기존 방법의 한계를 극복하기 위해, 본 논문은 향상된 생성 충실도를 위해 여러 세분화된 조건을 통합하는 새로운 SLVG 프레임워크인 SignViP를 제안한다. SignViP는 오류가 발생하기 쉬운 고차원 조건을 직접 변환하는 대신, 세분화된 조건(예: 세분화된 포즈 및 3D 손)을 통합하고 표현하기 위해 이산 토큰화 패러다임을 채택한다. SignViP는 Sign Video Diffusion Model, Finite Scalar Quantization (FSQ) Autoencoder, Multi-Condition Token Translator의 세 가지 핵심 구성 요소를 포함한다. 실험 결과 SignViP는 비디오 품질, 시간적 일관성 및 의미 충실도와 같은 메트릭에서 최첨단 성능을 달성했다.
시사점, 한계점
•
시사점:
◦
세분화된 조건(세분화된 포즈 및 3D 손)을 활용하여 생성된 비디오의 자연스러움과 표현력을 향상시킴.
◦
이산 토큰화 방식을 통해 고차원 조건의 오류를 줄이고, 효율적인 조건 표현을 가능하게 함.