Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Time-R1 : Modèle de langage de vision large post-formation pour l'ancrage vidéo temporel

Created by
  • Haebom

Auteur

Ye Wang, Ziheng Wang, Boshen Xu, Yang Du, Kejun Lin, Zihan Xiao, Zihao Yue, Jianzhong Ju, Liang Zhang, Dingyi Yang, Xiangnan Fang, Zewen He, Zhenbo Luo, Wenxuan Wang, Junqi Lin, Jian Luan, Qin Jin

Contour

Cet article aborde la notion d'ancrage temporel de la vidéo (TVG), un défi majeur pour la compréhension des vidéos longues. Bien que les modèles de langage visuel à grande échelle (LVLM) aient récemment montré un succès initial dans la résolution de TVG par réglage fin supervisé (SFT), leur capacité de généralisation reste limitée. Pour résoudre ce problème, nous proposons un nouveau cadre de post-apprentissage qui améliore la capacité de généralisation des LVLM par apprentissage par renforcement (RL). Nos principales contributions s'articulent autour de trois axes. Premièrement, nous présentons Time-R1, un cadre de post-apprentissage basé sur l'inférence via RL avec des récompenses vérifiables, pour améliorer les performances des LVLM sur les tâches de TVG. Deuxièmement, nous explorons TimeRFT, une stratégie de post-apprentissage efficace en données sur des jeux de données compatibles RL, pour entraîner les modèles à comprendre des échantillons de plus en plus difficiles, améliorant ainsi leurs performances de généralisation. Troisièmement, nous construisons TVGBench, un benchmark d'évaluation LVLM, petit mais complet, qui évalue 11 types de questions et présente une répartition équilibrée entre les vidéos et les questions. Grâce à des expériences approfondies, nous montrons que Time-R1 atteint des performances de pointe sur plusieurs sous-ensembles et fait progresser la compréhension générale de la vidéo en utilisant seulement 2,5 000 données de formation.

Takeaways, Limitations_

Takeaways:
Nous présentons la possibilité d'améliorer les performances TVG et la capacité de généralisation des LVLM grâce à un cadre de post-formation basé sur l'apprentissage par renforcement.
Nous démontrons que d’excellentes performances peuvent être obtenues même avec de petites quantités de données grâce à une stratégie de post-formation efficace en termes de données.
Fournit un nouveau benchmark appelé TVGBench pour établir une base de référence pour l'évaluation des performances LVLM.
Obtenez des performances de pointe avec seulement 2,5 000 données.
Limitations:
Les performances du cadre proposé peuvent dépendre d’ensembles de données et de repères spécifiques.
Les processus de formation basés sur l’apprentissage par renforcement peuvent être relativement coûteux en termes de calcul.
L’échelle de TVGBench peut être petite et insuffisante pour évaluer pleinement les performances de généralisation.
Une validation supplémentaire de la robustesse pour différents types de vidéos et de requêtes est nécessaire.
👍