본 연구는 COCO 이미지 데이터셋의 세 가지 행동 클래스를 사용하여 사람의 행동 인식을 연구했습니다. 단순한 완전 연결 네트워크부터 트랜스포머 아키텍처까지 다양한 모델들을 비교 평가했습니다. 이중, 이진 비전 트랜스포머(ViT)는 평균 90%의 테스트 정확도를 달성하여, 약 35%의 정확도를 보인 합성곱 신경망이나 약 62-64%의 정확도를 보인 CLIP 기반 모델보다 상당히 높은 성능을 나타냈습니다. 일원배치 분산분석(ANOVA, F = 61.37, p < 0.001)을 통해 이러한 차이가 통계적으로 유의미함을 확인했습니다. SHAP 설명기와 LeGrad 히트맵을 이용한 정성적 분석 결과, ViT는 자세 특정 영역(예: 걷기나 달리기의 경우 하체)에 집중하는 반면, 단순한 순전파 모델은 종종 배경 질감에 집중하여 오류를 발생시키는 것으로 나타났습니다. 이러한 결과는 트랜스포머 표현의 데이터 효율성과 클래스별 오류 진단에서 설명 가능성 기법의 중요성을 강조합니다.