Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical Context Inference

Created by
  • Haebom
Category
Empty

저자

Sungjae Kim, Kihyun Na, Jinyoung Choi, Injung Kim

개요

BERT-APC는 참조 피치 없이 보컬 녹음의 피치 오류를 수정하고 표현력과 자연스러움을 유지하는 새로운 자동 피치 보정(APC) 프레임워크입니다. BERT-APC는 고유한 고정 피치 예측기를 사용하여 음성에서 감지된 피치를 추정하고, 음악적 컨텍스트를 활용하기 위해 재구성된 음악 언어 모델을 활용하는 컨텍스트 인식 음표 피치 예측기를 사용합니다. 마지막으로, 음표 수준 보정 알고리즘은 감정 표현을 위한 의도적인 피치 편차를 유지하면서 피치 오류를 수정합니다. 또한, 현실적인 디튜닝 패턴을 시뮬레이션하여 음악 언어 모델의 견고성을 향상시키는 학습 가능한 데이터 증강 전략을 도입했습니다. BERT-APC는 두 개의 최신 음성 전사 모델보다 음표 피치 예측에서 우수한 성능을 보였고, 상업용 APC 도구보다 높은 MOS 점수를 기록했습니다.

시사점, 한계점

참조 피치 없이 피치 보정을 수행하여 실제 적용 가능성을 높임
음악 언어 모델을 활용하여 음표 간의 관계 및 음악적 컨텍스트를 고려
표현적 뉘앙스를 유지하면서 피치 오류를 수정
상업용 APC 도구보다 높은 MOS 점수를 기록
모델의 성능은 데이터에 의존하며, 학습 데이터의 품질이 중요
모델의 복잡성으로 인해 계산 비용이 높을 수 있음
👍