Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Low-Bitrate Video Compression through Semantic-Conditioned Diffusion

Created by
  • Haebom
Category
Empty

저자

Lingdong Wang, Guan-Ming Su, Divya Kothandaraman, Tsung-Wei Huang, Mohammad Hajiesmaili, Ramesh K. Sitaraman

개요

저화질 비트 전송률에서 픽셀 정확도를 위해 최적화된 기존의 비디오 코덱은 심각한 인공물을 생성하며 성능이 저하됩니다. 본 논문에서는 의미 있는 정보만 전송하고 세부 정보 합성을 위해 생성적 사전 정보를 사용하는 DiSCo라는 의미 기반 비디오 압축 프레임워크를 제안합니다. 소스 비디오는 텍스트 설명, 시공간적으로 저하된 비디오, 선택적으로 스케치 또는 포즈의 세 가지 압축된 양식으로 분해됩니다. 조건부 비디오 확산 모델은 이러한 압축 표현으로부터 고품질의 시간적으로 일관성 있는 비디오를 재구성합니다. 다중 양식 생성 및 양식 압축을 개선하기 위해 시간적 전진 채우기, 토큰 인터리빙 및 양식별 코덱이 제안되었습니다. 실험 결과, 제안된 방법은 저비트 전송률에서 지각적 메트릭에 대해 기본 의미 기반 코덱 및 기존 코덱보다 2~10배 더 우수한 성능을 보였습니다.

시사점, 한계점

저비트 전송률에서 픽셀 정확도를 넘어 지각적 품질에 초점을 맞춘 새로운 비디오 압축 프레임워크 제안
의미, 외관, 움직임 정보를 별도의 양식으로 분리하여 압축 효율성을 높임
조건부 비디오 확산 모델을 활용하여 고품질 비디오 재구성
시간적 일관성 확보를 위한 기술(시간적 전진 채우기 등) 제안
기존 및 의미 기반 코덱 대비 2~10배 향상된 성능
한계점은 구체적으로 명시되지 않았음 (향후 연구를 통해 밝혀질 것으로 예상)
👍