Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices

Created by
  • Haebom

作者

Jordi Grau-Haro、Ruben Ribes-Serrano、Javier Naranjo-Alcazar、Marta Garcia-Ballesteros、Pedro Zuccarello

概要

本論文は、ラズベリーパイなどのリソース制約環境におけるオーディオタグ付けのためのさまざまなCNNアーキテクチャのパフォーマンスを総合的に評価した研究です。 PANNsフレームワークのすべての1Dおよび2Dモデル、オーディオ分類に適するように変更されたConvNeXtベースのモデル、MobileNetV3アーキテクチャ、および最近提案されたCNN9およびCNN13など、さまざまなモデルをONNX形式に変換して評価しました。従来の研究とは異なり、さまざまなアーキテクチャを比較し、24時間の連続推論によってパフォーマンスの安定性を評価しました。実験の結果、適切なモデルの選択と最適化により、長期間にわたって一貫した推論遅延時間を維持し、熱管理を効果的に実行できることがわかりました。これは、実際のエッジコンピューティング環境でオーディオタギングモデルを展開するのに役立つ洞察を提供します。

Takeaways、Limitations

Takeaways:
様々なCNNアーキテクチャのラズベリーパイ相オーディオタグ付け性能比較解析による最適モデル選択と最適化戦略の提示
長時間連続推論による性能安定性と熱管理効率評価結果の提示
実際のエッジコンピューティング環境でのオーディオタグ付けモデルの展開に関する実用的なガイドラインを提供します。
ONNX形式変換によるモデルの移植性の向上と様々なハードウェアプラットフォームにおける利用可能性の提示
Limitations:
評価に使用したラズベリーパイの仕様が明示的に提示されておらず、一般化の可能性に対する限界存在。
評価対象モデルの選択範囲は特定のフレームワークおよびアーキテクチャに限定され、他のモデルとの比較が不足する可能性があります。
24時間連続推論以外に、他の環境要因(例えば、ネットワークの状態、バックグラウンドタスクなど)の考慮が不足する可能性があります。
エネルギー消費量の定量的な分析が不足しています。
👍