Cet article aborde la notion d'ancrage temporel de la vidéo (TVG), un défi majeur pour la compréhension des vidéos longues. Bien que les modèles de langage visuel à grande échelle (LVLM) aient récemment montré un succès initial dans la résolution de TVG par réglage fin supervisé (SFT), leur capacité de généralisation reste limitée. Pour résoudre ce problème, nous proposons un nouveau cadre de post-apprentissage qui améliore la capacité de généralisation des LVLM par apprentissage par renforcement (RL). Nos principales contributions s'articulent autour de trois axes. Premièrement, nous présentons Time-R1, un cadre de post-apprentissage basé sur l'inférence via RL avec des récompenses vérifiables, pour améliorer les performances des LVLM sur les tâches de TVG. Deuxièmement, nous explorons TimeRFT, une stratégie de post-apprentissage efficace en données sur des jeux de données compatibles RL, pour entraîner les modèles à comprendre des échantillons de plus en plus difficiles, améliorant ainsi leurs performances de généralisation. Troisièmement, nous construisons TVGBench, un benchmark d'évaluation LVLM, petit mais complet, qui évalue 11 types de questions et présente une répartition équilibrée entre les vidéos et les questions. Grâce à des expériences approfondies, nous montrons que Time-R1 atteint des performances de pointe sur plusieurs sous-ensembles et fait progresser la compréhension générale de la vidéo en utilisant seulement 2,5 000 données de formation.