Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TurboBias: Universal ASR Context-Biasing được hỗ trợ bởi cây tăng cường cụm từ được tăng tốc bởi GPU

Created by
  • Haebom

Tác giả

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

Phác thảo

Bài báo này đề cập đến vấn đề nhận dạng các từ khóa cụ thể trong nhận dạng giọng nói tự động (ASR) nhận biết ngữ cảnh. Các kỹ thuật thiên về ngữ cảnh hiện có có những hạn chế, chẳng hạn như yêu cầu đào tạo mô hình bổ sung, tốc độ giải mã chậm và các loại hệ thống ASR hạn chế. Trong bài báo này, chúng tôi đề xuất một khuôn khổ thiên về ngữ cảnh ASR đa năng hỗ trợ tất cả các loại mô hình ASR chính, bao gồm các mô hình CTC, Transducer và Attention Encoder-Decoder. Sử dụng cây tăng cường từ được tăng tốc bằng GPU, khuôn khổ hoạt động ở chế độ hợp nhất nông mà không bị chậm lại trong giải mã tìm kiếm tham lam và chùm tia, ngay cả với tối đa 20.000 từ khóa. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội hơn các kỹ thuật thiên về ngữ cảnh nguồn mở hiện có về độ chính xác và tốc độ giải mã. Khuôn khổ thiên về ngữ cảnh được đề xuất đã được mã nguồn mở như một phần của bộ công cụ NeMo.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ chung theo ngữ cảnh có thể áp dụng cho nhiều loại mô hình ASR khác nhau.
Tăng tốc GPU cho phép xử lý số lượng lớn từ khóa mà không bị chậm lại
ĐạT được độ chính xác và tốc độ giải mã cao hơn so với các phương pháp hiện có
Bản phát hành mã nguồn mở để cải thiện khả năng truy cập
Limitations:
Hiệu suất của khuôn khổ được trình bày trong bài báo này dựa trên một tập dữ liệu và bộ từ khóa cụ thể và hiệu suất có thể thay đổi trong các điều kiện khác.
Nó có thể được áp dụng cho nhiều mô hình ASR khác nhau, nhưng có thể cần tối ưu hóa tùy thuộc vào loại mô hình.
Không cân nhắc đầy đủ đến việc sử dụng thông tin theo ngữ cảnh ngoài từ khóa.
👍