Este artículo se centra en el problema de las alucinaciones en los Modelos de Lenguaje Multimodales a Gran Escala (MLLM) de Vídeo, específicamente en la Alucinación por Agregación Semántica (AAS) que se produce en vídeos de larga duración. A diferencia de estudios previos que han simplificado las causas de las alucinaciones centrándose en vídeos cortos, este artículo redefine la AAS, que se produce durante el procesamiento semántico complejo en vídeos de larga duración, y presenta un nuevo punto de referencia, ELV-Halluc, para este fin. Utilizando ELV-Halluc, confirmamos la presencia de AAS, analizamos su correlación con la complejidad semántica y los cambios semánticos rápidos, y verificamos experimentalmente la eficacia de las estrategias de codificación posicional y de desplazamiento posicional dinámico (DPO) para la mitigación de AAS. Utilizando 8.000 pares de datos adversarios, mejoramos el rendimiento del modelo y logramos una reducción del 27,7 % en la tasa de AAS.