본 논문은 실시간으로 인간의 조작 행동을 인식하는 모델을 제안합니다. 기존 실시간 모델들의 시간적 확장성 문제(장시간 조작에 대한 적응력 부족)를 해결하기 위해, 일반화 가능한 장면 그래프 표현을 활용한 Factorized Graph Sequence Encoder 네트워크를 제시합니다. 새로운 Hand Pooling 연산을 도입하여 그래프 수준 임베딩을 효과적으로 추출하며, KIT Bimanual Action (Bimacs) 데이터셋과 Collaborative Action (CoAx) 데이터셋에서 기존 최고 성능의 실시간 접근 방식보다 F1-macro 점수를 각각 14.3%와 5.6% 향상시켰습니다. 네트워크 설계 선택에 대한 광범위한 ablation study와 RGB 기반 모델과의 비교 분석도 포함되어 있습니다.