Zhaokai Wang, Chenxi Bao, Le Zhuo, Jingrui Han, Yang Yue, Yihong Tang, Victor Shea-Jay Huang, Yue Liao
개요
본 논문은 영상-음악 생성(Vision-to-Music Generation), 특히 비디오-음악 및 이미지-음악 생성 분야에 대한 체계적인 문헌 검토를 제공합니다. 텍스트나 이미지 생성에 비해 상대적으로 연구가 초기 단계에 있는 영상-음악 생성 분야의 기술적 특징과 핵심 과제를 분석하고, 세 가지 입력 유형(일반 비디오, 인체 움직임 비디오, 이미지)과 두 가지 출력 유형(기호 음악, 오디오 음악)에 따른 어려움을 논의합니다. 또한, 기존의 영상-음악 생성 방법론을 아키텍처 관점에서 요약하고, 일반적인 데이터셋과 평가 지표를 자세히 검토하며, 향후 연구의 과제와 유망한 방향을 제시합니다. GitHub 저장소(https://github.com/wzk1015/Awesome-Vision-to-Music-Generation)를 통해 최신 연구 동향을 지속적으로 업데이트합니다.
시사점, 한계점
•
시사점: 영상-음악 생성 분야의 현황과 미래 방향에 대한 포괄적인 이해를 제공합니다. 다양한 입력 및 출력 유형에 따른 기술적 특징과 과제를 명확히 제시합니다. 기존 방법론과 데이터셋, 평가 지표에 대한 체계적인 분석을 통해 연구자들에게 유용한 정보를 제공합니다. GitHub 저장소를 통해 지속적인 업데이트를 제공하여 연구자들의 접근성을 높입니다.
•
한계점: 본 논문은 현 시점까지의 연구 동향을 반영한 것이므로, 미래의 연구 결과를 반영하지 못할 수 있습니다. GitHub 저장소의 지속적인 유지보수가 필요합니다. 특정 아키텍처나 방법론에 대한 편향이 존재할 가능성이 있습니다.