축구 경기 영상 이해는 시간적 동작 위치 추정, 시공간적 동작 감지, 다중 객체 추적과 같은 과제를 위한 데이터 세트 생성을 유도했다. 축구 분석에 사용되는 구조화된 일련의 이벤트(누가, 무엇을, 언제, 어디서)에 대한 주석은 시공간적 동작 감지(STAD)와 다중 객체 추적(MOT)을 모두 통합하는 전체론적 접근 방식을 필요로 한다. 현재의 동작 인식 방법은 신뢰할 수 있는 플레이별 데이터를 구축하는 데 여전히 불충분하며, 주석을 완전히 자동화하기보다는 지원하는 데 일반적으로 사용된다. 전술 모델링, 궤적 예측, 성능 분석에 대한 병렬 연구가 진행되었으며, 이 모든 연구는 게임 상태와 플레이별 데이터를 기반으로 한다. 이는 컴퓨터 비전 기반 예측을 지원하기 위해 전술적 지식을 사전 지식으로 활용하여 플레이별 데이터의 보다 자동화되고 신뢰할 수 있는 추출을 가능하게 한다. 본 논문에서는 다중 모드, 다중 에이전트 전술적 맥락에서 축구 경기 전체에 걸쳐 플레이별 동작 감지를 위한 최초의 벤치마크인 Footovision Play-by-Play Action Spotting in Soccer Dataset (FOOTPASS)를 소개한다. 이는 컴퓨터 비전 작업(예: 추적, 식별)의 출력과 축구에 대한 사전 지식(장기간에 걸친 전술적 규칙성을 포함)을 모두 활용하여 신뢰할 수 있는 플레이별 데이터 스트림을 생성하는 플레이어 중심 동작 감지 방법의 개발을 가능하게 한다. 이러한 스트림은 데이터 기반 스포츠 분석의 필수 입력이다.