본 논문은 복잡한 장면에서 특정 객체에 맞춘 오디오 생성이 어려운 기존의 비디오-오디오(V2A) 생성 방법의 한계를 극복하기 위해, 사용자가 프레임을 클릭하여 특정 객체의 소리를 생성할 수 있는 상호작용형 V2A 프레임워크인 Hear-Your-Click을 제시합니다. Hear-Your-Click은 마스크 기반 시각적 인코더(MVE)를 사용하는 객체 인식 대조 오디오-비주얼 미세 조정(OCAV)을 통해 오디오와 정렬된 객체 수준의 시각적 특징을 얻습니다. 또한, 무작위 비디오 연결(RVS)과 마스크 기반 라우드니스 변조(MLM)라는 두 가지 데이터 증강 전략을 통해 모델의 분할된 객체에 대한 민감도를 높입니다. 오디오-비주얼 대응 관계를 측정하기 위해 새로운 평가 지표인 CAV 점수를 설계했습니다. 광범위한 실험을 통해 본 프레임워크가 더욱 정밀한 제어를 제공하고 다양한 지표에서 생성 성능을 향상시킨다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
상호작용적인 V2A 생성 프레임워크를 통해 사용자의 직관적인 객체 선택을 가능하게 함으로써, 특정 객체에 초점을 맞춘 정교한 오디오 생성을 지원합니다.
◦
객체 수준의 시각적 특징과 오디오의 정렬을 개선하여 복잡한 장면에서도 더욱 정확한 오디오 생성이 가능합니다.
◦
제안된 데이터 증강 전략(RVS, MLM)과 새로운 평가 지표(CAV score)는 V2A 생성 모델의 성능 향상 및 평가에 기여합니다.
•
한계점:
◦
제시된 프레임워크의 성능은 사용자의 클릭 정확도에 영향을 받을 수 있습니다.
◦
다양한 객체와 복잡한 상호작용이 포함된 장면에서의 성능은 추가적인 연구가 필요합니다.
◦
제안된 CAV 점수가 모든 유형의 오디오-비주얼 대응 관계를 완벽하게 포착하는지는 추가적인 검증이 필요합니다.