Improving endpoint detection in end-to-end streaming ASR for conversational speech
Created by
Haebom
저자
Anandh C, Karthik Pandia Durai, Jeena Prakash, Manickavela Arumugam, Kadri Hacioglu, S. Pavankumar Dubagunta, Andreas Stolcke, Shankar Venkatesan, Aravind Ganapathiraju
개요
본 논문은 사람 또는 인공 에이전트가 참여하는 대화에서 사용자 경험 향상에 중요한 역할을 하는 ASR 엔드포인팅(EP)에 대해 다룹니다. 특히 스트리밍에 선호되는 엔드투엔드(E2E) ASR 모델링 기법인 트랜스듀서 기반 ASR (T-ASR)의 지연된 출력 문제를 해결하는 방법을 제안합니다. T-ASR의 지연된 출력은 EP 오류나 지연으로 이어져 사용자 발화 중단이나 불완전한 음성 기록 생성, 지각된 지연 증가 등의 문제를 야기합니다. 본 논문에서는 단어 끝에 단어 종료 토큰을 추가하고 지연 패널티를 적용하여 지연된 출력 문제를 해결하고, 보조 네트워크를 사용하여 신뢰할 수 있는 프레임 수준의 음성 활동 감지를 통해 EP 지연 문제를 해결하는 방법을 제시합니다. Switchboard 대화 음성 말뭉치를 사용하여 제안된 방법을 기존 지연 패널티 방법과 비교 평가합니다.
시사점, 한계점
•
시사점:
◦
T-ASR의 지연된 출력으로 인한 ASR 엔드포인팅 문제를 효과적으로 해결하는 방법 제시
◦
단어 종료 토큰과 지연 패널티, 보조 네트워크 기반 음성 활동 감지 등의 새로운 기법 제안
◦
사용자 경험 향상에 기여할 수 있는 향상된 ASR 엔드포인팅 성능 달성
•
한계점:
◦
제안된 방법의 효과는 Switchboard 말뭉치에 대한 평가 결과에 국한됨. 다른 말뭉치나 ASR 시스템에 대한 일반화 가능성은 추가 연구 필요.