본 논문은 소의 보행 이상 감지에 대한 공개적으로 이용 가능한 비디오 데이터를 사용한 시공간 심층 학습 프레임워크를 제안합니다. 42마리 소의 50개 비디오 클립으로 구성된 균형 잡힌 데이터셋을 구축하여 공개하고, 데이터 증강 기법을 적용하여 3D CNN과 ConvLSTM2D 두 가지 심층 학습 모델을 훈련 및 평가했습니다. 3D CNN 모델은 90%의 비디오 수준 분류 정확도와 90.9%의 정밀도, 재현율, F1 점수를 달성하여 ConvLSTM2D 모델(85% 정확도)을 능가했습니다. 기존의 객체 검출 및 자세 추정과 같은 다단계 파이프라인에 의존하는 방법과 달리, 본 연구는 직접적인 엔드투엔드 비디오 분류 접근 방식의 효과를 보여줍니다. 이는 다양한 비디오 소스로부터 시공간적 특징을 효과적으로 추출하고 학습하여 실제 농장 환경에서 확장 가능하고 효율적인 소의 보행 이상 감지를 가능하게 합니다.