Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
Created by
Haebom
Category
Empty
저자
Mathias Rose Bjare, Giorgia Cantisani, Marco Pasini, Stefan Lattner, Gerhard Widmer
개요
노이즈가 있는 인코딩으로부터 입력을 재구성하도록 오토인코더를 훈련시키는 방식이 지각 손실과 결합될 때 지각적 계층 구조에 따라 구조화된 인코딩을 생성한다고 주장합니다. 이러한 방식으로 오디오 오토인코더를 훈련시킨 후, 지각적으로 중요한 정보가 기존 훈련 방식보다 더 거친 표현 구조에 포착됨을 보여줌으로써 이러한 계층 구조의 출현을 입증합니다. 또한, 이러한 지각적 계층 구조가 음악 음높이의 놀라움을 추정하고 음악 청취에 대한 EEG-뇌 반응을 예측하는 맥락에서 잠재 확산 디코딩을 개선함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
노이즈가 있는 인코딩 재구성 및 지각 손실을 활용한 오토인코더 훈련 방식이 지각적 계층 구조를 형성합니다.
◦
오디오 오토인코더 훈련을 통해 지각적으로 중요한 정보가 기존 방식보다 더 거친 표현 구조에 포착됨을 확인했습니다.
◦
지각적 계층 구조는 음악 음높이의 놀라움 추정 및 EEG-뇌 반응 예측의 성능을 향상시킵니다.