SDBenchは、さまざまなユースケースとドメインを表す複数のデータセットにわたって誤差率の高い分散を示す最先端の話者分離システムの問題を解決するために提案されたオープンソースベンチマークの集まりです。 13の異なるデータセットを統合し、一貫した細分化された話者分離性能分析のためのツールを提供し、再現可能な評価と新しいシステムの容易な統合を可能にします。この論文では、SDBenchの効果を実証するために、Pyannote v3ベースの推論効率に重点を置いたシステムであるSpeakerKitを構築し、SDBenchを使用してSpeakerKitの性能を評価し、Pyannote v3より9.6倍速いながらも同様の誤差率を達成することを示しています。さらに、Deepgram、AWS Transcribe、Pyannote AI APIなど、6つの最先端のシステムをベンチマークし、精度とスピードの重要なトレードオフを明らかにします。