본 논문은 라즈베리 파이와 같은 자원 제약 환경에서 오디오 태깅을 위한 다양한 CNN 아키텍처의 성능을 종합적으로 평가합니다. Pretrained Audio Neural Networks (PANNs) 프레임워크의 모든 1D 및 2D 모델, 오디오 분류를 위해 적용된 ConvNeXt 기반 모델, MobileNetV3 아키텍처를 포함하며, 최근 제안된 CNN9 및 CNN13도 평가 대상에 포함됩니다. 모든 모델은 ONNX 형식으로 변환되어 다양한 하드웨어 플랫폼에서의 배포 효율성과 이식성을 높였습니다. 24시간 연속 추론 세션을 통해 성능 안정성을 평가하고, 적절한 모델 선택 및 최적화를 통해 장시간에 걸쳐 일관된 추론 지연 시간을 유지하고 열 관리를 효과적으로 수행할 수 있음을 보여줍니다. 실제 에지 컴퓨팅 시나리오에서 오디오 태깅 모델 배포에 대한 귀중한 통찰력을 제공합니다.