Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Neural Model for Contextual Biasing Score Learning and Filtering

Created by
  • Haebom

저자

Wanting Huang, Weiran Wang

개요

자동 음성 인식(ASR)에서 사용자 특정 구문이나 개체와 같은 외부 지식을 통합하여 문맥적 편향이 성능을 향상시킨다. 본 논문에서는 ASR 인코더가 추출한 음향 정보를 기반으로 후보 구문에 대한 점수를 생성하는 어텐션 기반 편향 디코더를 사용한다. 이 점수는 가능성이 낮은 구문을 필터링하고 얕은 융합 편향에 대한 보너스를 계산하는 데 사용된다. 실제 정답 구문에 대해서는 더 높은 점수를 부여하고, 오답에 대해서는 억제하는 토큰별 차별적 목적 함수를 도입한다. Librispeech 편향 벤치마크 실험 결과, 제안하는 방법은 후보 구문의 대부분을 효과적으로 필터링하며, 얕은 융합 편향에 점수를 사용할 때 다양한 편향 조건에서 인식 정확도를 크게 향상시킨다. 제안하는 방법은 모듈 방식이며 모든 ASR 시스템에 사용할 수 있고, 필터링 메커니즘은 다른 편향 방법의 성능을 향상시킬 수 있다.

시사점, 한계점

시사점:
어텐션 기반 편향 디코더를 사용하여 ASR 시스템의 성능을 향상시켰다.
후보 구문 필터링을 통해 계산 효율성을 높이고, 얕은 융합 편향의 정확도를 향상시켰다.
모듈식 접근 방식을 통해 다른 ASR 시스템과의 통합을 용이하게 했다.
한계점:
Librispeech 벤치마크에 대한 실험만 진행되어 다른 데이터셋에서의 일반화 가능성을 추가로 검증해야 한다.
다른 편향 방법과의 비교 분석이 부족하다.
필터링 메커니즘이 다른 편향 방법의 성능을 얼마나 향상시키는지에 대한 구체적인 분석이 부족하다.
👍