Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation

Created by
  • Haebom

저자

Yingshan Liang, Keyu Fan, Zhicheng Du, Yiran Wang, Qingyang Shi, Xinyu Zhang, Jiasheng Lu, Peiwu Qin

개요

본 논문은 복잡한 장면에서 특정 객체에 맞춘 오디오 생성이 어려운 기존의 비디오-오디오(V2A) 생성 방법의 한계를 극복하기 위해, 사용자가 프레임을 클릭하여 특정 객체의 소리를 생성할 수 있는 상호작용형 V2A 프레임워크인 Hear-Your-Click을 제시합니다. Hear-Your-Click은 마스크 기반 시각적 인코더(MVE)를 사용하는 객체 인식 대조 오디오-비주얼 미세 조정(OCAV)을 통해 오디오와 정렬된 객체 수준의 시각적 특징을 얻습니다. 또한, 무작위 비디오 연결(RVS)과 마스크 기반 라우드니스 변조(MLM)라는 두 가지 데이터 증강 전략을 통해 모델의 분할된 객체에 대한 민감도를 높입니다. 오디오-비주얼 대응 관계를 측정하기 위해 새로운 평가 지표인 CAV 점수를 설계했습니다. 광범위한 실험을 통해 본 프레임워크가 더욱 정밀한 제어를 제공하고 다양한 지표에서 생성 성능을 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
상호작용적인 V2A 생성 프레임워크를 통해 사용자의 직관적인 객체 선택을 가능하게 함으로써, 특정 객체에 초점을 맞춘 정교한 오디오 생성을 지원합니다.
객체 수준의 시각적 특징과 오디오의 정렬을 개선하여 복잡한 장면에서도 더욱 정확한 오디오 생성이 가능합니다.
제안된 데이터 증강 전략(RVS, MLM)과 새로운 평가 지표(CAV score)는 V2A 생성 모델의 성능 향상 및 평가에 기여합니다.
한계점:
제시된 프레임워크의 성능은 사용자의 클릭 정확도에 영향을 받을 수 있습니다.
다양한 객체와 복잡한 상호작용이 포함된 장면에서의 성능은 추가적인 연구가 필요합니다.
제안된 CAV 점수가 모든 유형의 오디오-비주얼 대응 관계를 완벽하게 포착하는지는 추가적인 검증이 필요합니다.
👍