Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PARCO: ASR ngữ cảnh mạnh mẽ được tăng cường âm vị thông qua việc loại bỏ sự mơ hồ của thực thể tương phản

Created by
  • Haebom

Tác giả

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

Phác thảo

Bài báo này đề xuất phương pháp ASR ngữ cảnh mạnh mẽ tăng cường âm vị thông qua khử nhập nhằng thực thể đối chiếu (PARCO) để giải quyết những thách thức mà các hệ thống nhận dạng giọng nói tự động (ASR) đang gặp phải, vốn gặp khó khăn với các thực thể được đặt tên theo miền cụ thể, đặc biệt là các từ đồng âm. PARCO tích hợp mã hóa nhận biết âm vị, khử nhập nhằng thực thể đối chiếu, giám sát cấp thực thể và lọc thực thể phân cấp để cải thiện khả năng phân biệt giọng nói, đảm bảo phát hiện thực thể hoàn chỉnh và giảm các kết quả dương tính giả trong điều kiện không chắc chắn. Phương pháp này đạt tỷ lệ lỗi ký tự (CER) là 4,22% trên tập dữ liệu AISHELL-1 tiếng Trung và tỷ lệ lỗi từ (WER) là 11,14% trên tập dữ liệu DATA2 tiếng Anh dưới 1.000 từ gây nhiễu, vượt trội đáng kể so với các phương pháp hiện có. Phương pháp này cũng cho thấy những cải thiện hiệu suất mạnh mẽ trên các tập dữ liệu miền cụ thể như THCHS-30 và LibriSpeech.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một mô hình ASR mới có thể giải quyết hiệu quả vấn đề đồng âm bằng cách sử dụng thông tin cấp độ âm vị.
Chúng tôi đã cải thiện độ chính xác và tính ổn định của nhận dạng đối tượng thông qua phương pháp học tương phản và lọc phân cấp.
Chúng tôi đã chứng minh rằng phương pháp của chúng tôi hiệu quả hơn các phương pháp hiện có trên nhiều tập dữ liệu khác nhau.
_____T76426____:
Thiếu phân tích về độ phức tạp tính toán và mức tiêu thụ tài nguyên của mô hình đề xuất.
Cần có thêm nghiên cứu về hiệu suất khái quát hóa trên nhiều ngôn ngữ và miền khác nhau.
Cần đánh giá thêm về độ bền vững trong môi trường thực tế.
👍