Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization

Created by
  • Haebom

저자

Cong Wang, Zexuan Deng, Zhiwei Jiang, Yafeng Yin, Fei Shen, Zifeng Cheng, Shiping Ge, Shiwei Gan, Qing Gu

개요

Sign Language Video Generation (SLVG) 연구는 음성 언어 텍스트로부터 정체성을 보존하는 수화 비디오를 생성하는 것을 목표로 한다. 기존 방법의 한계를 극복하기 위해, 본 논문은 향상된 생성 충실도를 위해 여러 세분화된 조건을 통합하는 새로운 SLVG 프레임워크인 SignViP를 제안한다. SignViP는 오류가 발생하기 쉬운 고차원 조건을 직접 변환하는 대신, 세분화된 조건(예: 세분화된 포즈 및 3D 손)을 통합하고 표현하기 위해 이산 토큰화 패러다임을 채택한다. SignViP는 Sign Video Diffusion Model, Finite Scalar Quantization (FSQ) Autoencoder, Multi-Condition Token Translator의 세 가지 핵심 구성 요소를 포함한다. 실험 결과 SignViP는 비디오 품질, 시간적 일관성 및 의미 충실도와 같은 메트릭에서 최첨단 성능을 달성했다.

시사점, 한계점

시사점:
세분화된 조건(세분화된 포즈 및 3D 손)을 활용하여 생성된 비디오의 자연스러움과 표현력을 향상시킴.
이산 토큰화 방식을 통해 고차원 조건의 오류를 줄이고, 효율적인 조건 표현을 가능하게 함.
여러 메트릭에서 기존 SOTA(State-of-the-Art) 성능을 달성.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍