본 논문은 적은 수의 샘플로 액션 인식을 수행하는 Few-Shot Action Recognition (FSAR) 분야에서, 공간적 및 시간적 특징 분리, 좁은 시야의 모션 정보 획득 문제를 해결하기 위해 Spatio-tempOral frAme tuPle enhancer (SOAP)라는 새로운 아키텍처를 제안한다. SOAP-Net으로 명명된 이 모델은 특징 채널 간의 시간적 연결과 공간-시간적 관계를 고려하며, 인접 프레임 대신 여러 프레임을 포함하는 프레임 튜플을 사용하여 더 많은 모션 정보를 캡처한다. 다양한 프레임 수의 프레임 튜플을 결합하여 더 넓은 시야를 제공한다. 제안된 SOAP-Net은 SthSthV2, Kinetics, UCF101, HMDB51과 같은 벤치마크에서 최첨단 성능을 달성했으며, 경쟁력, 플러그 가능성, 일반화 및 견고성을 입증했다.