[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Voxtral

Created by
  • Haebom

Tác giả

Alexander H. Liu, Andy Ehrenberg, Andy Lo, Clement Denoix, Corentin Barreau, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Sanchit Gandhi, Soham Ghosh, Srijan Mishra, Thomas Foubert, Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexandre Sablayrolles, Am elie H. eliou, Am elie Martin, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozi ere, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Cl emence Lanfranchi, Darius Dabert, Devendra Singh Chaplot, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Hadrien Chabran, Jessica Chudnovsky, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Lelio Renard Lavaud, Leonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Micka el Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomine Chagniot, Pierre Stock, Pravesh Agrawal, Remi Delacourt, Romain Sauvestre, Roman Soletskyi, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Shashwat Dalal, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothee Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Hiên Vũ Chương, Yihan Wan, Yunhao Tang

Phác thảo

Chúng tôi giới thiệu hai mô hình trò chuyện âm thanh đa phương thức, Voxtral Mini và Voxtral Small. Voxtral được đào tạo để hiểu cả văn bản nói và văn bản, đạt hiệu suất vượt trội trên nhiều chuẩn âm thanh khác nhau trong khi vẫn giữ được các tính năng văn bản mạnh mẽ. Voxtral Small vượt trội hơn một số mô hình độc quyền trong khi vẫn đủ nhỏ gọn để chạy cục bộ. Nó có thể xử lý các tệp âm thanh dài tới 40 phút và các cuộc trò chuyện nhiều vòng dài với cửa sổ ngữ cảnh 32K. Chúng tôi cũng cung cấp ba chuẩn để đánh giá các mô hình hiểu lời nói về các vấn đề kiến thức và thường thức. Cả hai mô hình Voxtral đều được phát hành theo giấy phép Apache 2.0.

Takeaways, Limitations

Takeaways:
ĐạT được hiệu suất vượt trội trên nhiều tiêu chuẩn âm thanh.
Duy trì khả năng soạn thảo văn bản mạnh mẽ.
Một mô hình có kích thước nhỏ có thể thực thi cục bộ (Voxtral Small).
Khả năng xử lý các tệp âm thanh dài tới 40 phút và các cuộc hội thoại dài nhiều lượt.
Cung cấp chuẩn mực mới để đánh giá các mô hình hiểu lời nói.
ĐượC phát hành dưới dạng mã nguồn mở (giấy phép Apache 2.0).
Limitations:
Không đề cập rõ ràng đến __T1132_____. Có thể cần thêm các thử nghiệm chuẩn và xác thực hiệu suất trong môi trường sử dụng thực tế.
👍