본 논문은 딥러닝 모델과 그래프 기반 관계 추론을 결합하여 다중 인물 장면에서 그룹 활동을 감지하는 컴퓨터 비전 기반 프레임워크를 제시한다. Mask R-CNN을 사용하여 배우의 위치를 정확하게 파악하고, Inception V3, MobileNet, VGG16과 같은 여러 백본 네트워크를 사용하여 특징 맵을 추출한다. 마스크 정보를 특징 맵과 융합하여 각 배우에 대한 정제된 마스크된 특징 표현을 얻는다. 배우 간의 상호 작용을 모델링하기 위해, 정규화된 상호 상관, 절대 차이의 합, 내적 등을 사용하여 외형 유사성 및 위치 관계를 인코딩하는 배우 관계 그래프를 구성한다. 그래프 컨볼루션 네트워크는 이러한 그래프에서 관계를 추론하고 개별 동작과 그룹 수준 활동을 예측한다. Collective Activity 데이터 세트에 대한 실험 결과는 마스크 기반 특징 개선, 강력한 유사성 검색 및 그래프 신경망 추론의 조합이 혼잡하고 혼잡하지 않은 시나리오 모두에서 향상된 인식 성능을 제공함을 보여준다.