Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Fleurs-SLU: Một chuẩn mực đa ngôn ngữ cho khả năng hiểu ngôn ngữ nói

Created by
  • Haebom

Tác giả

Fabian David Schmidt, Ivan Vuli c, Goran Glava\v{s}, David Ifeoluwa Adelani

Phác thảo

Bài báo này trình bày Fleurs-SLU, một chuẩn SLU đa ngôn ngữ cho việc hiểu lời nói (SLU) trong các ngôn ngữ có ít tài nguyên. Fleurs-SLU chứa 692 giờ dữ liệu lời nói để phân loại phát ngôn theo chủ đề trong 102 ngôn ngữ và 944 giờ dữ liệu lời nói để trả lời câu hỏi trắc nghiệm thông qua hiểu nghe trong 92 ngôn ngữ. Chúng tôi đánh giá sâu rộng một mô hình phân loại lời nói đầu cuối, một hệ thống nối tiếp kết hợp phiên âm lời nói thành văn bản và phân loại dựa trên LLM, và một LLM lời nói đa phương thức trên Fleurs-SLU. Kết quả thử nghiệm cho thấy rằng trong khi hệ thống nối tiếp mạnh mẽ hơn trong SLU đa ngôn ngữ, một bộ mã hóa lời nói được đào tạo tốt thể hiện hiệu suất cạnh tranh trong phân loại lời nói theo chủ đề. LLM lời nói vòng kín ngang bằng hoặc vượt trội hơn hiệu suất của hệ thống nối tiếp. Hơn nữa, chúng tôi quan sát thấy mối tương quan mạnh mẽ giữa ASR đa ngôn ngữ mạnh mẽ, dịch lời nói thành văn bản hiệu quả và SLU đa ngôn ngữ mạnh mẽ, chứng minh lợi ích chung của biểu diễn lời nói âm học và ngữ nghĩa.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu Fleurs-SLU, một chuẩn mực mới cho nghiên cứu SLU đa ngôn ngữ, bao gồm cả những ngôn ngữ có ít tài nguyên.
Chúng tôi chứng minh sức mạnh của các hệ thống nối tiếp trong SLU đa ngôn ngữ và khả năng cạnh tranh của bộ mã hóa giọng nói được đào tạo trước và LLM giọng nói vòng kín.
Khám phá mối liên hệ giữa ASR đa ngôn ngữ mạnh mẽ, dịch giọng nói thành văn bản hiệu quả và SLU đa ngôn ngữ.
Limitations:
Fleurs-SLU tập trung vào các ngôn ngữ và nhiệm vụ cụ thể, đòi hỏi phải nghiên cứu thêm về khả năng khái quát hóa.
Thiếu phân tích chi tiết về so sánh hiệu suất của LLM giọng nói vòng kín.
Cần có thêm phân tích hiệu suất toàn diện cho nhiều ngôn ngữ có ít tài nguyên.
👍