DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Junbo Zou, Haotian Xia, Zhen Ye, Shengjie Zhang, Christopher Lai, Vicente Ordonez, Weining Shen, Hanjie Chen
DeepSport: End-to-End Trained MLLM for Multi-Task, Multi-Sport Video Understanding
개요
본 논문은 스포츠 비디오 이해를 위한 최초의 종단 간 훈련된 MLLM(Multimodal Large Language Model) 프레임워크인 DeepSport를 소개합니다. 이 모델은 고속 역학, 복잡한 규칙 이해, 장기적인 시간적 맥락에 대한 추론을 요구하는 스포츠 비디오의 특수성을 고려하여 설계되었습니다. DeepSport는 수동적인 프레임 처리에서 벗어나, 프레임 추출 도구를 통해 동적으로 내용을 질문하는 방식으로 능동적이고 반복적인 추론을 수행합니다. 이를 위해 10개의 데이터 소스에서 Chain-of-Thought(CoT) 궤적을 합성하는 데이터 증류 파이프라인을 제안하여 78,000개의 훈련 데이터를 생성했습니다. 또한 Supervised Fine-Tuning(SFT)과 새로운 게이티드 도구 사용 보상과 함께 Reinforcement Learning(RL)을 사용하는 2단계 훈련 전략을 채택했습니다. 6,700개의 질문으로 구성된 테스트 벤치마크에서 DeepSport는 최고 수준의 성능을 달성하여 독점 모델 및 오픈 소스 모델의 기준선을 크게 능가했습니다.
시사점, 한계점
•
시사점:
◦
다양한 스포츠의 복잡성을 해결하기 위한 도메인별 비디오 추론의 새로운 기반을 마련했습니다.
◦
능동적이고 반복적인 추론을 통해 스포츠 비디오 이해 문제를 해결하는 새로운 접근 방식을 제시했습니다.
◦
다양한 데이터 소스에서 CoT 궤적을 합성하는 효율적인 데이터 증류 파이프라인을 제안했습니다.