本論文では、多変量時系列異常検出(MTS-AD)分野で最大のベンチマークであるmTSBenchを紹介します。 mTSBenchは、19のデータセット、12のさまざまなアプリケーションにわたって344のラベル付き時系列を含み、大規模言語モデル(LLM)ベースの検出器を含む24以上の検出方法を評価します。標準化された条件下で非マップモデル選択手法を体系的にベンチマークし、どの単一検出器もすべてのデータセットで優れていないことを確認し、したがってモデル選択の重要性を強調します。しかし、最先端の選択方法でさえ最適とは距離が離れていることを明らかにし、適応型異常検出と強力なモデル選択の発展を促進するために統合された評価ツールを提供します。