본 논문은 영화 후반 작업, AR/VR, 사운드 디자인 등에서 중요한 비디오-오디오 생성(V2A) 분야, 특히 화면 동작과 동기화된 폴리 사운드 효과 생성에 중점을 둡니다. 폴리 사운드는 시각적 이벤트와 의미적으로 일치하고, 타이밍에 맞춰 오디오를 생성해야 합니다. 기존 평가 데이터셋의 한계점을 지적하고, 폴리 스타일 시나리오에 특화된 최초의 대규모 벤치마크인 FoleyBench를 소개합니다. FoleyBench는 5,000개의 (비디오, 정답 오디오, 텍스트 캡션) 삼중항을 포함하며, 화면 이벤트와 인과적으로 연결된 오디오를 특징으로 합니다. YouTube 및 Vimeo 기반의 인터넷 비디오를 사용하여 자동화된 파이프라인으로 구축되었으며, 폴리 사운드에 특화된 사운드 카테고리를 포함합니다. 또한 소스 복잡성, UCS/AudioSet 카테고리, 비디오 길이에 대한 메타데이터로 각 클립에 라벨링되어 모델 성능 분석을 가능하게 합니다. 여러 최첨단 V2A 모델을 벤치마킹하여 오디오 품질, 오디오-비디오 정렬, 시간 동기화, 오디오-텍스트 일관성을 평가합니다.