RAS: a Reliability Oriented Metric for Automatic Speech Recognition

Created by

Haebom

저자

Wenbin Huang, Yuhang Qiu, Bohan Li, Yiwei Guo, Jing Peng, Hankun Wang, Xie Chen, Kai Yu

💡 개요

본 논문은 자동 음성 인식(ASR) 시스템이 잡음이나 모호한 환경에서 확신에 찬 오류를 생성하는 문제를 해결하고자 합니다. 이를 위해 ASR 모델이 불확실한 구간에 대해 명시적으로 기권할 수 있는 abstention-aware 프레임워크를 제안하며, 기권 상황에서의 신뢰도를 평가하기 위한 새로운 지표인 RAS(Reliability-Oriented Metric)를 소개합니다. RAS는 정보성과 오류 회피를 균형 있게 고려하며, 실험 결과 제안된 abstention-aware ASR 모델이 정확도를 유지하면서도 음성 인식 결과의 신뢰성을 크게 향상시키는 것으로 나타났습니다.

🔑 시사점 및 한계

•

ASR 시스템의 오류에 대한 신뢰도 평가 지표 부재를 해결하고, 확신에 찬 잘못된 전사를 줄여 사용자 및 다운스트림 애플리케이션의 오해를 방지합니다.

•

abstention-aware 프레임워크를 통해 ASR 모델이 불확실한 구간을 인식하고 기권함으로써 전반적인 신뢰도를 높일 수 있음을 보여줍니다.

•

제안된 RAS 지표는 정보성과 오류 회피 간의 균형을 고려하며, 인간 선호도에 따라 조정될 수 있는 유연성을 가집니다.

•

abstention-aware ASR 모델의 학습 과정에 지도 학습 기반 부트스트랩핑과 강화 학습을 적용하여 성능을 향상시켰습니다.

•

abstention-aware ASR 모델의 복잡성 증가 및 실제 적용 시의 계산 비용 증가에 대한 고려가 필요합니다.

•

abstention-aware ASR 모델이 기권하는 "불확실한" 기준을 명확히 하고, 다양한 환경에서의 성능 검증이 추가적으로 요구됩니다.

PDF 보기

Made with Slashpage