[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Voxtral

Created by
  • Haebom

Auteur

Alexander H. Liu, Andy Ehrenberg, Andy Lo, Clément Denoix, Corentin Barreau, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Sanchit Gandhi, Soham Ghosh, Srijan Mishra, Thomas Foubert, Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexandre Sablayrolles, Am elie H. eliou, Am elie Martin, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière , Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devendra Singh Chaplot, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gautier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Hadrien Chabran, Jessica Chudnovsky, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Lelio Renard Lavaud, Leonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Micka el Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomine Chagniot, Pierre Stock, Pravesh Agrawal, Rémi Delacourt, Romain Sauvestre, Roman Soletskyi, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Shashwat Dalal, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothee Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yihan Wan, Yunhao Tang

Contour

Nous présentons deux modèles de chat audio multimodaux, Voxtral Mini et Voxtral Small. Voxtral est entraîné à comprendre à la fois les documents audio parlés et les documents texte, offrant des performances de pointe sur divers tests audio tout en conservant des fonctionnalités texte performantes. Voxtral Small surpasse plusieurs modèles propriétaires tout en étant suffisamment compact pour fonctionner localement. Il peut gérer des fichiers audio d'une durée maximale de 40 minutes et de longues conversations à plusieurs tours avec une fenêtre contextuelle de 32 Ko. Nous proposons également trois tests pour évaluer les modèles de compréhension vocale sur des problèmes de connaissances et de bon sens. Les deux modèles Voxtral sont publiés sous licence Apache 2.0.

Takeaways, Limitations

Takeaways:
Atteindre des performances de pointe sur une gamme de benchmarks audio.
Maintenir de puissantes capacités de texte.
Un modèle de petite taille exécutable localement (Voxtral Small).
Capacité à gérer des fichiers audio d'une durée maximale de 40 minutes et de longues conversations à plusieurs tours.
Fournir une nouvelle référence pour évaluer les modèles de compréhension de la parole.
Publié en open source (licence Apache 2.0).
Limitations:
Aucune mention explicite de __T40055_____ n'est faite. Des tests d'évaluation supplémentaires et une validation des performances en conditions réelles peuvent être nécessaires.
👍