Este artículo se centra en el problema de las alucinaciones en los modelos de lenguaje multimodales a gran escala (Video-MLLM), específicamente en la alucinación por agregación semántica (SAH) que ocurre en videos de larga duración. A diferencia de estudios previos que se centraron principalmente en videos de corta duración y simplificaron las causas de la alucinación, este artículo proporciona un análisis profundo de la SAH, que ocurre en el complejo contexto semántico de los videos de larga duración. La SAH es un fenómeno en el que la semántica fotograma a fotograma es precisa, pero se genera una salida incorrecta al agregar esta información en unidades evento a evento. Este fenómeno es particularmente severo en videos de larga duración. Para abordar este problema, proponemos un nuevo punto de referencia para la alucinación en videos de larga duración, ELV-Halluc, y verificamos la presencia de SAH, analizando su correlación con la complejidad semántica y la tasa de cambio semántico. Además, proponemos un método para mitigar la SAH utilizando estrategias de codificación posicional y desplazamiento posicional dinámico (DPO). Demostramos una mejora en el rendimiento del modelo en un conjunto de datos compuesto por 8000 pares de datos antagónicos. Finalmente, logramos una reducción del 27,7 % en la tasa de SAH.