본 연구는 자동회귀 모델 내에서 효율적인 오디오 편집을 위해 크로스 어텐션 제어를 활용하는 방법을 조사합니다. 이미지 편집 방법론에서 영감을 받아 크로스 및 셀프 어텐션 메커니즘을 통해 편집을 안내하는 Prompt-to-Prompt 방식을 개발했습니다. Auffusion의 영향을 받은 확산 기반 전략을 통합하여 모델의 기능을 개선 편집까지 확장하고, 프롬프트 기반 오디오 편집에 대한 기준을 설정했습니다. 또한, 사전 훈련된 고정 자동회귀 모델인 MUSICGEN을 통합하여 어텐션 점수의 교체, 가중치 재조정, 개선을 기반으로 하는 세 가지 편집 메커니즘을 제안합니다. 일반적으로 사용되는 음악 관련 평가 지표와 사용자 연구를 통해 시간에 따른 제어 가능성, 전역 텍스트 단서 준수 및 전반적인 오디오 현실감을 측정했습니다. 자동 및 사용자 평가 결과, 제안된 프롬프트-투-프롬프트 안내와 자동 회귀 생성 모델의 조합이 확산 기반 기준 모델보다 생성된 오디오의 멜로디, 다이내믹스 및 템포 측면에서 상당히 우수한 성능을 보이는 것으로 나타났습니다. 코드는 https://github.com/billsioros/EditGen 에서 확인할 수 있습니다.
시사점, 한계점
•
시사점: 프롬프트-투-프롬프트 기반 크로스 어텐션 제어를 활용한 오디오 편집 방법이 자동회귀 모델에서 효율적이고 정확한 편집을 가능하게 함을 보여줍니다. MUSICGEN과 같은 사전 훈련된 모델을 활용하여 편집 성능을 향상시킬 수 있음을 제시합니다. 제안된 방법은 멜로디, 다이내믹스, 템포 등 다양한 오디오 특징에 대한 제어력이 뛰어납니다.
•
한계점: 본 연구는 특정 음악 생성 모델(MUSICGEN)에 의존적일 수 있습니다. 다양한 모델에 대한 일반화 가능성에 대한 추가 연구가 필요합니다. 사용자 연구의 규모 및 참가자 구성에 따라 결과의 일반화 가능성에 제한이 있을 수 있습니다. 더욱 다양하고 복잡한 오디오 편집 작업에 대한 성능 평가가 필요합니다.