Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robust Neural Audio Fingerprinting using Music Foundation Models

Created by
  • Haebom
Category
Empty

저자

Shubhr Singh, Kiran Bhat, Xavier Riley, Benjamin Resnick, John Thickstun, Walter De Brouwer

개요

TikTok과 같은 현대 미디어 플랫폼에서 왜곡, 압축, 조작된 음악의 확산으로 인해 음악 녹음 소스를 식별하기 위한 보다 강력한 오디오 지문 기술 개발이 필요해졌습니다. 본 논문에서는 견고성을 향상시키기 위해 새로운 신경 오디오 지문 기술을 개발하고 평가합니다. 본 연구는 신경 지문 방법론에 두 가지 기여를 합니다. (1) 사전 훈련된 음악 기반 모델을 신경 아키텍처의 백본으로 사용하고 (2) 시간 늘이기, 피치 변조, 압축 및 필터링을 포함한 다양한 오디오 조작 하에서 지문 모델을 훈련하기 위해 데이터 증강의 사용을 확장합니다.

시사점, 한계점

음악 기반 모델 (예: MuQ, MERT)로 추출된 지문은 처음부터 훈련되거나 비음악 오디오로 사전 훈련된 모델보다 일관되게 우수한 성능을 보입니다.
세그먼트 수준 평가는 지문 일치를 정확하게 찾을 수 있는 기능을 보여주며, 이는 카탈로그 관리에 중요한 실용적인 기능입니다.
(논문에 구체적인 한계점 언급이 없음)
👍