Dans cet article, nous présentons mTSBench, la plus grande référence dans le domaine de la détection d'anomalies de séries temporelles multivariées (MTS-AD). mTSBench couvre 344 séries temporelles étiquetées réparties sur 19 jeux de données et 12 applications différentes, et évalue 24 méthodes de détection d'anomalies, dont des détecteurs basés sur des modèles de langage à grande échelle (LLM). En comparant systématiquement les techniques de sélection de modèles non supervisées dans des conditions standardisées, nous confirmons qu'aucun détecteur n'excelle sur tous les jeux de données, soulignant ainsi l'importance de la sélection de modèles. Cependant, nous démontrons également que même les méthodes de sélection les plus avancées sont loin d'être optimales et fournissons un outil d'évaluation intégré pour faciliter le développement de la détection adaptative d'anomalies et de la sélection robuste de modèles.