Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising

Created by
  • Haebom
Category
Empty

저자

Yifan Wang, Liya Ji, Zhanghan Ke, Harry Yang, Ser-Nam Lim, Qifeng Chen

개요

본 논문은 시뮬레이터에서 생성된 합성 비디오의 사실성을 향상시키는 접근 방식을 제안합니다. 이는 제로샷 프레임워크로, 추가적인 미세 조정 없이 확산 비디오 기반 모델을 사용하여 합성 비디오의 다중 레벨 구조를 공간적 및 시간적 영역 모두에서 보존하는 데 중점을 둡니다. 특히, 시뮬레이터에서 정보를 추출하는 대신 보조 모델을 통해 깊이 맵, 의미 맵, 엣지 맵과 같은 합성 비디오에서 추정된 구조 인식 정보에 따라 생성/디노이징 프로세스를 조건화하도록 효과적인 수정을 통합합니다. 이러한 지침을 통해 향상된 비디오가 구조적 및 의미적 수준에서 원래 합성 비디오와 일관성을 유지하도록 보장합니다. 본 연구는 간단하지만 일반적이고 강력한 합성 비디오 사실성 향상 접근 방식을 제시하며, 실험에서 원래 비디오와의 구조적 일관성 측면에서 기존 기준선을 능가하고 최첨단 수준의 포토리얼리즘 품질을 유지함을 보여줍니다.

시사점, 한계점

시사점:
제로샷 방식의 합성 비디오 사실성 향상.
확산 비디오 기반 모델 활용.
구조 인식 정보(깊이, 의미, 엣지 맵)를 활용하여 일관성 유지.
기존 방법론 대비 구조적 일관성 우수.
최첨단 포토리얼리즘 품질 달성.
한계점:
논문에서 구체적인 한계점은 명시되지 않음 (다만, 제로샷 방식의 특성상 일반화 능력의 한계가 있을 수 있음).
👍