본 논문은 실시간 활동 인식 및 이상 감지를 위해 동기화된 비디오 및 오디오 처리를 통합하는 포괄적인 멀티 모달 실내 모니터링 시스템의 설계, 구현 및 발전을 제시한다. YOLOv8, ByteTrack 및 AST(Audio Spectrogram Transformer)를 사용한 초기 경량 구현과, 멀티 모델 오디오 앙상블, 하이브리드 객체 감지, 양방향 교차 모달 주의, 멀티 방법 이상 감지를 통합한 고급 버전의 두 가지 시스템 반복을 설명한다. 발전 과정은 정확성, 견고성 및 산업 적용 가능성에서 상당한 개선을 보여준다. 고급 시스템은 포괄적인 오디오 이해를 위해 세 가지 오디오 모델(AST, Wav2Vec2, HuBERT), 정확성 향상을 위한 이중 객체 감지기(YOLO 및 DETR), 향상된 교차 모달 학습을 위한 정교한 융합 메커니즘을 결합한다. 실험적 평가는 일반적인 모니터링 시나리오와 특수 산업 안전 응용 분야에서 시스템의 효과를 보여주며, 높은 정확도를 유지하면서 표준 하드웨어에서 실시간 성능을 달성한다.