本論文は、ラズベリーパイなどのリソース制約環境におけるオーディオタグ付けのためのさまざまなCNNアーキテクチャのパフォーマンスを総合的に評価した研究です。 PANNsフレームワークのすべての1Dおよび2Dモデル、オーディオ分類に適するように変更されたConvNeXtベースのモデル、MobileNetV3アーキテクチャ、および最近提案されたCNN9およびCNN13など、さまざまなモデルをONNX形式に変換して評価しました。従来の研究とは異なり、さまざまなアーキテクチャを比較し、24時間の連続推論によってパフォーマンスの安定性を評価しました。実験の結果、適切なモデルの選択と最適化により、長期間にわたって一貫した推論遅延時間を維持し、熱管理を効果的に実行できることがわかりました。これは、実際のエッジコンピューティング環境でオーディオタギングモデルを展開するのに役立つ洞察を提供します。