Articulatory Feature Prediction from Surface EMG during Speech Production
Created by
Haebom
저자
Jihwan Lee, Kevin Huang, Kleanthis Avramidis, Simon Pistrosch, Monica Gonzalez-Machorro, Yoonjeong Lee, Bjorn Schuller, Louis Goldstein, Shrikanth Narayanan
개요
본 논문은 표면 근전도(EMG) 신호로부터 발성 특징을 예측하는 모델을 제시합니다. 컨볼루션 계층과 Transformer 블록을 통합하고, 각 발성 특징에 대한 별도의 예측기를 사용하는 모델은 대부분의 발성 특징에 대해 약 0.9의 높은 예측 상관관계를 달성합니다. 더 나아가, 예측된 발성 특징을 명료한 음성 파형으로 디코딩할 수 있음을 보여줍니다. 본 연구는 표면 EMG로부터 관절 특징을 거쳐 음성 파형을 디코딩하는 최초의 방법으로, EMG 기반 음성 합성에 대한 새로운 접근 방식을 제시합니다. 또한, EMG 전극 배치와 발성 특징 예측 가능성 간의 관계를 분석하여 EMG 전극 구성을 최적화하기 위한 지식 기반 통찰력을 제공합니다. 소스 코드와 디코딩된 음성 샘플은 공개적으로 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
표면 EMG 신호를 이용한 음성 합성에 새로운 접근 방식 제시.
◦
높은 정확도(약 0.9 상관관계)의 발성 특징 예측 달성.
◦
예측된 발성 특징으로부터 명료한 음성 파형 디코딩 성공.
◦
EMG 전극 배치 최적화를 위한 지식 기반 통찰력 제공.
◦
소스 코드와 디코딩된 음성 샘플 공개.
•
한계점:
◦
논문에서 구체적인 한계점이 언급되지 않음. 추가적인 실험이나 다양한 데이터셋을 통한 검증이 필요할 수 있음.