Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cải thiện chú thích hội thoại với đặc điểm của người nói bằng cách tận dụng LLM đóng băng

Created by
  • Haebom

Tác giả

Thomas Thebaud, Yen-Ju Lu, Matthew Wiesner, Peter Viechnicki, Najim Dehak

Phác thảo

Bài báo này trình bày một bước bổ sung trong quy trình hậu xử lý nhằm cải thiện ngữ pháp, dấu câu và khả năng đọc hiểu trong quy trình phiên âm hội thoại bằng cách tận dụng mô hình ngôn ngữ quy mô lớn (LLM). Điều này làm phong phú thêm các bản ghi bằng cách thêm các thẻ siêu dữ liệu, chẳng hạn như tuổi, giới tính và cảm xúc của người nói. Một số thẻ là toàn cục cho toàn bộ cuộc trò chuyện, trong khi những thẻ khác thay đổi theo thời gian. Chúng tôi trình bày một phương pháp kết hợp mô hình dựa trên âm thanh cố định, chẳng hạn như Whisper hoặc WavLM, với mô hình ngôn ngữ LLAMA cố định để suy ra các thuộc tính của người nói mà không cần tinh chỉnh từng mô hình cụ thể. Sử dụng một trình kết nối nhẹ và hiệu quả kết nối các biểu diễn âm thanh và ngôn ngữ, chúng tôi đạt được hiệu suất cạnh tranh trong các tác vụ lập hồ sơ người nói trong khi vẫn duy trì tính mô-đun và tốc độ. Hơn nữa, chúng tôi chứng minh rằng mô hình LLAMA cố định đạt được tỷ lệ lỗi (ER) bằng nhau là 8,8% trong một số trường hợp bằng cách so sánh trực tiếp các vectơ x.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc kết hợp các mô hình dựa trên âm thanh với LLM có thể xây dựng một quy trình xử lý hậu kỳ phiên âm cuộc trò chuyện hiệu quả và theo mô-đun.
ĐIều này cho thấy hiệu suất suy luận thuộc tính của người nói có thể được cải thiện bằng cách sử dụng mô hình cố định mà không cần điều chỉnh cụ thể cho từng tác vụ.
Chúng tôi chứng minh rằng hiệu suất nhận dạng người nói hiệu quả có thể đạt được thông qua so sánh vectơ x bằng mô hình LLAMA.
Bạn có thể làm phong phú và nâng cao cuộc trò chuyện của mình bằng cách thêm thẻ siêu dữ liệu vào hồ sơ cuộc trò chuyện.
Limitations:
Chỉ trình bày hiệu suất trong các tình huống cụ thể và hiệu suất tổng quát trên các môi trường và tập dữ liệu khác nhau cần được nghiên cứu thêm.
Có thể có những hạn chế về loại mô hình âm thanh và LLM được sử dụng.
Cần đánh giá thêm về độ chính xác và độ tin cậy của thẻ siêu dữ liệu.
EER 8,8% chỉ giới hạn ở một kịch bản cụ thể và cần có kết quả thử nghiệm rộng hơn.
👍