Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Giảm thiểu ảo giác trong các mô hình TTS dựa trên LM thông qua căn chỉnh phân phối bằng GFlowNets

Created by
  • Haebom

Tác giả

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

Phác thảo

Bài báo này đề xuất GOAT (Ghép nối Phân phối theo hướng dẫn GFlOwNet), một phương pháp mới để giải quyết ảo giác trong các hệ thống chuyển văn bản thành giọng nói (TTS) dựa trên mô hình ngôn ngữ. Không giống như các phương pháp hiện có, GOAT là một khuôn khổ hậu huấn luyện giúp giảm thiểu ảo giác mà không cần quá nhiều tài nguyên huấn luyện hoặc trì hoãn suy luận. Chúng tôi phân tích mối tương quan mạnh mẽ giữa độ bất định của mô hình và ảo giác, đồng thời định hình lại việc tạo TTS như một bài toán tối ưu hóa luồng quỹ đạo, sử dụng các mục tiêu cân bằng quỹ đạo con được tăng cường và phần thưởng nội bộ được điều chỉnh mạnh làm phân phối mục tiêu. Chúng tôi tích hợp giảm nhiệt độ phần thưởng và tối ưu hóa tốc độ học để cân bằng giữa tính ổn định và hiệu suất. Kết quả thử nghiệm cho thấy khả năng khái quát hóa và hiệu quả tuyệt vời, giảm tỷ lệ lỗi ký tự hơn 50% và độ bất định lên đến 58% trong các trường hợp thử nghiệm khó.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giảm thiểu hiệu quả vấn đề ảo giác của TTS dựa trên mô hình ngôn ngữ mà không tốn quá nhiều tài nguyên hoặc chậm trễ suy luận.
Trình bày chiến lược giảm thiểu ảo giác hiệu quả dựa trên phân tích sự không chắc chắn của mô hình.
Dễ dàng áp dụng vào các mô hình hiện có thông qua khuôn khổ đào tạo sau.
Khả năng cải thiện hiệu suất cao và khả năng khái quát đã được kiểm chứng bằng thực nghiệm.
Limitations:
Có khả năng hiệu quả của phương pháp đề xuất có thể bị giới hạn ở các tập dữ liệu hoặc mô hình cụ thể.
Cần đánh giá thêm hiệu suất khái quát hóa trên các loại ảo giác khác nhau.
Cần phải đánh giá hiệu suất bổ sung trong môi trường ứng dụng thực tế.
👍