본 논문은 펜싱의 빠른 동작과 미묘한 상호 작용, 복잡한 규칙 적용의 어려움을 해결하기 위해 개발된 자세 기반 프레임워크인 FERA (Fencing Referee Assistant)를 제시합니다. FERA는 단안 비디오로부터 2D 자세를 추출하고, 이를 101차원 운동 표현으로 변환합니다. 인코더 전용 Transformer (FERA-MDT)를 사용하여 발 동작과 칼 동작을 예측하며, 이러한 예측은 언어 모델 (FERA-LM)이 설명 가능한 판결을 생성하기 위한 의미론적 토큰으로 사용됩니다. FERA-MDT는 가변 길이 클립을 처리하기 위해 동적 시간 윈도잉을 사용하고, FERA-LM은 인코딩된 우선 규칙을 적용하여 프로토타입 결정과 간략한 설명을 생성합니다. 전문 경기 클립 1,734개에서 FERA-MDT는 5-겹 교차 검증에서 macro-F1 0.549를 달성했으며, BiLSTM, TCN 및 기본 Transformer보다 성능이 우수합니다. FERA는 시각적 인식과 규칙 적용을 효과적으로 분리하여, 이 교차 모달 동작 이해 작업에 대한 최초의 데이터세트와 벤치마크를 제공합니다.