Sign In

Cross-Corpus Validation of Speech Emotion Recognition in Urdu using Domain-Knowledge Acoustic Features

Created by
  • Haebom
Category
Empty

저자

Unzela Talpur, Zafi Sherhan Syed, Muhammad Shehram Shah Syed, Abbas Shah Syed

개요

본 연구는 감성 지능형 인공 지능을 가능하게 하는 핵심적인 감성 컴퓨팅 기술인 음성 감정 인식(SER)을 연구하며, 특히 자원 부족 언어인 우르두어에 초점을 맞춥니다. 주로 탐구되지 않았던 교차 코퍼스 환경에서 우르두어 SER을 조사하며, 모델 일반화를 테스트하기 위해 세 개의 다른 우르두어 감성 음성 데이터 세트에 대한 교차 코퍼스 평가 프레임워크를 사용합니다. eGeMAPS 및 ComParE와 같은 두 가지 표준 도메인 지식 기반 음향 특징 세트를 사용해 음성 신호를 특징 벡터로 표현하고, 이를 로지스틱 회귀 및 다층 퍼셉트론 분류기에 전달합니다. 분류 성능은 클래스 레이블 불균형을 고려하여 가중 평균 재현율(UAR)을 사용하여 평가합니다.

시사점, 한계점

교차 코퍼스 평가는 모델의 견고성에 대한 보다 현실적인 척도를 제공합니다.
자체 코퍼스 유효성 검증은 종종 성능을 과대 평가할 수 있습니다.
우르두어 SER에 대한 교차 코퍼스 유효성 검증의 중요성을 강조합니다.
저평가 언어 커뮤니티를 위한 감성 컴퓨팅 연구 발전에 기여합니다.
본 연구에서는 특정 모델과 특징 세트만을 사용하며, 다른 방법론에 대한 탐구는 제한적입니다.
단일 언어(우르두어)에 국한되어 다른 언어에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍