Voxtral Realtime

Created by

Haebom

저자

Alexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amelie Heliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Roziere, Baudouin De Monicault, Benjamin Tibi, Clemence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaetan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Leonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poiree, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomene Chagniot, Pierre Stock, Piotr Mi{\l}os, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Theo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

💡 개요

본 논문은 실시간 스트리밍 환경에서 오프라인 전사 모델과 동등한 성능을 보이면서도 1초 미만의 지연 시간을 갖는 Voxtral Realtime이라는 새로운 자동 음성 인식(ASR) 모델을 제안합니다. 기존의 청킹 또는 슬라이딩 윈도우 기법과는 달리, Voxtral Realtime은 오디오와 텍스트 스트림 간의 명시적인 정렬을 통해 엔드-투-엔드로 스트리밍 처리를 위해 학습됩니다.

🔑 시사점 및 한계

•

기존 오프라인 ASR 모델의 성능을 실시간 스트리밍 환경에서도 거의 그대로 유지할 수 있는 새로운 접근 방식을 제시합니다.

•

13개 언어에 걸친 대규모 데이터셋으로 사전 학습되어 다양한 언어 환경에서 활용될 수 있습니다.

•

480ms의 지연 시간으로 널리 사용되는 오프라인 모델인 Whisper와 동등한 성능을 달성했습니다.

•

제시된 모델의 가중치를 Apache 2.0 라이선스로 공개하여 연구 및 개발 커뮤니티에 기여합니다.

PDF 보기

Made with Slashpage