본 논문은 실시간 응용에 적합하도록 계산 비용을 줄인 새로운 효율적인 자세 기반 주의력 유도 다중 모드 네트워크(EPAM-Net)를 제시합니다. RGB 비디오와 골격 시퀀스로부터 시공간적 특징을 추출하기 위해 X-ShiftNet이라는 효율적인 2D CNN 아키텍처를 RGB 및 자세 스트림에 적용합니다. Temporal Shift Module (TSM)을 통합하여 3D CNN의 높은 계산 비용 문제를 해결하고, 골격 특징을 활용하여 시공간적 어텐션 블록을 통해 주요 프레임과 중요 공간 영역에 집중하도록 시각 네트워크 스트림을 안내합니다. 마지막으로 두 스트림의 예측 결과를 융합하여 최종 분류를 수행합니다. 실험 결과, 제안된 방법은 FLOPs와 네트워크 파라미터 수를 크게 줄이면서 NTU RGB-D 60, NTU RGB-D 120, PKU-MMD, Toyota SmartHome 데이터셋에서 최첨단 성능을 달성하거나 경쟁력을 갖추었습니다.