SoccerChat은 시각 및 텍스트 데이터를 통합하는 다중 모드 대화형 AI 프레임워크로, 축구 경기 영상에 대한 이해도를 높이기 위해 개발되었습니다. SoccerNet 데이터셋을 활용하여 유니폼 색상 주석 및 자동 음성 인식(ASR) 전사를 통해 미세 조정되었으며, 구조화된 비디오 지시 데이터셋을 사용하여 정확한 경기 이해, 이벤트 분류 및 심판의 결정을 용이하게 합니다. SoccerChat은 액션 분류 및 심판 결정 과제에서 성능을 평가받았으며, 일반적인 축구 이벤트 이해에 대한 성능을 보여주는 동시에 심판 결정에서 경쟁력 있는 정확도를 유지합니다. 이 연구는 다중 모달 통합의 중요성을 강조하며, 보다 상호 작용적이고 설명 가능한 AI 기반 스포츠 분석을 위한 길을 열어줍니다.