[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Voxtral

Created by
  • Haebom

Autor

Alexander H. Liu, Andy Ehrenberg, Andy Lo, Clement Denoix, Corentin Barreau, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Sanchit Gandhi, Soham Ghosh, Srijan Mishra, Thomas Foubert, Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexandre Sablayrolles, Am elie H. eliou, Am elie Martin, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozi ere, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clemence Lanfranchi, Darius Dabert, Devendra Singh Chaplot, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Hadrien Chabran, Jessica Chudnovsky, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Lelio Renard Lavaud, Leonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Micka el Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomine Chagniot, Pierre Stock, Pravesh Agrawal, Remi Delacourt, Romain Sauvestre, Roman Soletskyi, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Shashwat Dalal, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothee Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yihan Wan, Yunhao Tang

Describir

Presentamos dos modelos de chat de audio multimodal: Voxtral Mini y Voxtral Small. Voxtral está entrenado para comprender tanto audio hablado como documentos de texto, logrando un rendimiento de vanguardia en diversas pruebas de audio, manteniendo al mismo tiempo características de texto de alta calidad. Voxtral Small supera a varios modelos propietarios, a la vez que es lo suficientemente pequeño como para ejecutarse localmente. Admite archivos de audio de hasta 40 minutos de duración y largas conversaciones multi-turno con una ventana de contexto de 32K. También ofrecemos tres pruebas de referencia para evaluar modelos de comprensión del habla en problemas de conocimiento y sentido común. Ambos modelos de Voxtral se publican bajo la licencia Apache 2.0.

Takeaways, Limitations

Takeaways:
Lograr un rendimiento de vanguardia en una variedad de puntos de referencia de audio.
Manteniendo potentes capacidades de texto.
Un modelo de tamaño pequeño ejecutable localmente (Voxtral Small).
Capacidad para manejar archivos de audio de hasta 40 minutos de duración y largas conversaciones de varios turnos.
Proporcionar un nuevo punto de referencia para evaluar los modelos de comprensión del habla.
Publicado como código abierto (licencia Apache 2.0).
Limitations:
No se menciona explícitamente __T18338_____. Podrían requerirse pruebas comparativas adicionales y validación del rendimiento en entornos de uso real.
👍