본 논문은 영화 후반 작업, AR/VR, 음향 디자인 등에서 중요한 비디오-오디오 생성(V2A) 분야, 특히 화면 동작과 동기화된 Foley 음향 효과 생성에 초점을 맞춥니다. Foley 스타일 시나리오에 특화된 벤치마크 부재로 인해 평가와 다운스트림 애플리케이션 간의 불일치가 발생함을 지적하며, 기존 데이터 세트의 오디오-비디오 일치 부족과 Foley 사용 사례와 관련 없는 음성 및 음악의 지배적인 특징을 밝힙니다. 이러한 격차를 해결하기 위해 Foley-스타일 V2A 평가를 위해 설계된 최초의 대규모 벤치마크인 FoleyBench를 소개합니다. FoleyBench는 5,000개의 (비디오, ground-truth 오디오, 텍스트 캡션) 삼중항으로 구성되어 있으며, 화면 이벤트와 인과적으로 연결된 오디오를 가진 가시적인 음원들을 특징으로 합니다. YouTube 및 Vimeo 기반 소스의 인터넷 비디오에 적용된 자동화되고 확장 가능한 파이프라인을 사용하여 구축되었습니다. FoleyBench는 Foley 사운드에 특화된 분류법의 사운드 범주를 더 잘 다루며, 소스 복잡성, UCS/AudioSet 범주 및 비디오 길이를 캡처하는 메타데이터로 각 클립에 레이블이 지정되어 모델 성능 및 실패 모드의 세분화된 분석을 가능하게 합니다. 여러 최첨단 V2A 모델을 벤치마킹하여 오디오 품질, 오디오-비디오 정렬, 시간 동기화 및 오디오-텍스트 일관성을 평가합니다.