Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FoleyBench: A Benchmark For Video-to-Audio Models

Created by
  • Haebom
Category
Empty

저자

Satvik Dixit, Koichi Saito, Zhi Zhong, Yuki Mitsufuji, Chris Donahue

개요

본 논문은 영화 후반 작업, AR/VR, 사운드 디자인 등에서 중요한 비디오-오디오 생성(V2A) 분야, 특히 화면 동작과 동기화된 폴리 사운드 효과 생성에 중점을 둡니다. 폴리 사운드는 시각적 이벤트와 의미적으로 일치하고, 타이밍에 맞춰 오디오를 생성해야 합니다. 기존 평가 데이터셋의 한계점을 지적하고, 폴리 스타일 시나리오에 특화된 최초의 대규모 벤치마크인 FoleyBench를 소개합니다. FoleyBench는 5,000개의 (비디오, 정답 오디오, 텍스트 캡션) 삼중항을 포함하며, 화면 이벤트와 인과적으로 연결된 오디오를 특징으로 합니다. YouTube 및 Vimeo 기반의 인터넷 비디오를 사용하여 자동화된 파이프라인으로 구축되었으며, 폴리 사운드에 특화된 사운드 카테고리를 포함합니다. 또한 소스 복잡성, UCS/AudioSet 카테고리, 비디오 길이에 대한 메타데이터로 각 클립에 라벨링되어 모델 성능 분석을 가능하게 합니다. 여러 최첨단 V2A 모델을 벤치마킹하여 오디오 품질, 오디오-비디오 정렬, 시간 동기화, 오디오-텍스트 일관성을 평가합니다.

시사점, 한계점

시사점:
폴리 스타일 V2A 평가를 위한 새로운 대규모 벤치마크 FoleyBench 도입.
기존 데이터셋의 한계점 (오디오-비주얼 부조화, 음성/음악 위주) 극복.
폴리 사운드에 특화된 사운드 카테고리 적용.
모델 성능의 세분화된 분석을 위한 메타데이터 활용.
오디오 품질, 오디오-비디오 정렬, 시간 동기화, 오디오-텍스트 일관성 등 다양한 평가 지표 제시.
한계점:
논문 자체에서 구체적인 한계점에 대한 언급은 없음.
(제안된 벤치마크에 포함된 데이터의 편향성, 모델의 일반화 능력 등과 관련한 잠재적인 한계는 있을 수 있음)
👍