Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Junbo Zou, Haotian Xia, Zhen Ye, Shengjie Zhang, Christopher Lai, Vicente Ordonez, Weining Shen, Hanjie Chen

DeepSport: End-to-End Trained MLLM for Multi-Task, Multi-Sport Video Understanding

개요

본 논문은 스포츠 비디오 이해를 위한 최초의 종단 간 훈련된 MLLM(Multimodal Large Language Model) 프레임워크인 DeepSport를 소개합니다. 이 모델은 고속 역학, 복잡한 규칙 이해, 장기적인 시간적 맥락에 대한 추론을 요구하는 스포츠 비디오의 특수성을 고려하여 설계되었습니다. DeepSport는 수동적인 프레임 처리에서 벗어나, 프레임 추출 도구를 통해 동적으로 내용을 질문하는 방식으로 능동적이고 반복적인 추론을 수행합니다. 이를 위해 10개의 데이터 소스에서 Chain-of-Thought(CoT) 궤적을 합성하는 데이터 증류 파이프라인을 제안하여 78,000개의 훈련 데이터를 생성했습니다. 또한 Supervised Fine-Tuning(SFT)과 새로운 게이티드 도구 사용 보상과 함께 Reinforcement Learning(RL)을 사용하는 2단계 훈련 전략을 채택했습니다. 6,700개의 질문으로 구성된 테스트 벤치마크에서 DeepSport는 최고 수준의 성능을 달성하여 독점 모델 및 오픈 소스 모델의 기준선을 크게 능가했습니다.

시사점, 한계점

시사점:
다양한 스포츠의 복잡성을 해결하기 위한 도메인별 비디오 추론의 새로운 기반을 마련했습니다.
능동적이고 반복적인 추론을 통해 스포츠 비디오 이해 문제를 해결하는 새로운 접근 방식을 제시했습니다.
다양한 데이터 소스에서 CoT 궤적을 합성하는 효율적인 데이터 증류 파이프라인을 제안했습니다.
SFT와 RL을 결합한 2단계 훈련 전략을 통해 모델의 추론 능력을 최적화했습니다.
기존 모델 대비 뛰어난 성능을 입증했습니다.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍