딥러닝 기반의 영상 감시 시스템은 개인 정보 보호와 낮은 계산 및 환경 부하를 요구하며, 연합 학습은 개인 정보를 보호하지만 대규모 비전-언어 모델(VLM) 배포는 에너지 및 지속 가능성 문제를 야기한다. 본 연구에서는 RWF-2000 및 RLVS 데이터셋에서 현실적인 비-IID 분할 환경에서 폭력 감지를 위한 세 가지 연합 학습 전략(사전 훈련된 VLM을 사용한 제로샷 추론, LLaVA-NeXT-Video-7B의 LoRA 기반 미세 조정, 65.8M-parameter 3D CNN의 개인화된 연합 학습)을 비교한다. 모든 방법은 이진 폭력 감지에서 90% 이상의 정확도를 달성하며, 3D CNN은 에너지 비용을 절반으로 줄이면서(240Wh vs. 570Wh) 우수한 보정 성능을 보이고(ROC AUC 92.59%), VLM은 더 풍부한 멀티모달 추론을 제공한다. UCF-Crime 데이터셋에서 계층적 카테고리 그룹화(의미적 유사성 및 클래스 제외 기반)는 VLM 다중 클래스 정확도를 65.31%에서 81%로 향상시켰다. 본 연구는 LoRA로 튜닝된 VLM과 개인화된 CNN을 연합 폭력 감지에 적용한 최초의 비교 시뮬레이션 연구로, 에너지 및 CO2e를 정량화하였다.