Cet article se concentre sur le problème des hallucinations dans les modèles de langage vidéo multimodaux à grande échelle (Video-MLLM), et plus particulièrement sur les hallucinations par agrégation sémantique (SAH) survenant dans les vidéos de longue durée. Contrairement aux études précédentes qui se concentraient principalement sur les vidéos de courte durée et simplifiaient les causes des hallucinations, cet article propose une analyse approfondie des SAH, qui surviennent dans le contexte sémantique complexe des vidéos de longue durée. Les SAH sont un phénomène pour lequel la sémantique image par image est précise, mais dont l'agrégation en unités événement par événement produit des résultats erronés. Ce phénomène est particulièrement grave dans les vidéos de longue durée. Pour résoudre ce problème, nous proposons un nouveau benchmark pour les hallucinations vidéo de longue durée, ELV-Halluc, et vérifions la présence de SAH en analysant sa corrélation avec la complexité sémantique et le taux de changement sémantique. De plus, nous proposons une méthode pour atténuer les SAH en utilisant des stratégies d'encodage positionnel et de décalage positionnel dynamique (DPO). Nous démontrons une amélioration des performances du modèle sur un ensemble de données composé de 8 000 paires de données contradictoires. Au final, nous obtenons une réduction de 27,7 % du taux d'hémorragie sous-arachnoïdienne.