Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

Created by
  • Haebom

저자

Jun Wang, Xijuan Zeng, Chunyu Qiang, Ruilong Chen, Shiyao Wang, Le Wang, Wangjing Zhou, Pengfei Cai, Jiahui Zhao, Nan Li, Zihan Li, Yuzhe Liang, Xiaopeng Wang, Haorui Zheng, Ming Wen, Kang Yin, Yiran Wang, Nan Li, Feng Deng, Liang Dong, Chen Zhang, Di Zhang, Kun Gai

개요

Kling-Foley는 고품질의 비디오 동기화 오디오를 합성하는 대규모 다중 모달 비디오-오디오 생성 모델입니다. 비디오, 오디오, 텍스트 모달 간의 상호 작용을 모델링하기 위해 다중 모달 확산 트랜스포머를 도입하고, 시각적 의미 표현 모듈과 오디오-비주얼 동기화 모듈을 결합하여 정렬 기능을 향상시킵니다. 특히, 이러한 모듈은 프레임 단위로 비디오 조건을 잠재 오디오 요소와 정렬하여 의미적 정렬과 오디오-비주얼 동기화를 개선합니다. 텍스트 조건과 함께 이 통합된 접근 방식을 통해 비디오와 일치하는 사운드 효과를 정확하게 생성할 수 있습니다. 또한, 사운드 효과, 음성, 노래, 음악과 같은 다양한 시나리오에서 고품질 모델링을 달성할 수 있는 범용 잠재 오디오 코덱을 제안합니다. 합성된 오디오에 공간적 존재감을 부여하는 입체 렌더링 방법을 사용합니다. 또한, 오픈소스 벤치마크의 불완전한 유형과 주석을 보완하기 위해 산업 수준의 벤치마크인 Kling-Audio-Eval도 오픈소스로 공개합니다. 플로우 매칭 목표로 훈련된 Kling-Foley는 분포 매칭, 의미적 정렬, 시간적 정렬 및 오디오 품질 측면에서 공개 모델 중 새로운 오디오-비주얼 최첨단 성능을 달성합니다.

시사점, 한계점

시사점:
고품질 비디오 동기화 오디오 합성을 위한 새로운 최첨단 모델 제시.
다중 모달 확산 트랜스포머와 추가 모듈을 활용한 향상된 정렬 기능.
다양한 오디오 유형(사운드 효과, 음성, 노래, 음악)에 대한 범용 잠재 오디오 코덱 개발.
산업 수준의 오디오-비주얼 벤치마크 Kling-Audio-Eval 공개.
한계점:
오픈소스 벤치마크의 불완전한 유형 및 주석에 대한 의존성(Kling-Audio-Eval 공개로 일부 해결).
모델의 훈련 및 추론에 필요한 컴퓨팅 자원에 대한 명시적 언급 부족.
모델의 일반화 성능에 대한 추가적인 평가 필요.
👍