Este artículo propone MQuant, un marco de cuantificación post-entrenamiento (PTQ) para la inferencia eficiente de modelos lingüísticos multimodales a gran escala (MLLM). Para abordar los desafíos de la implementación y aplicación práctica debido al gran tamaño de los parámetros y las altas demandas computacionales de los MLLM, MQuant introduce la cuantificación estática modal específica (MSQ), la conmutación flexible invariante a la atención (AIFS) y la supresión de escala de rotación (RMS) para lograr un rendimiento superior al de las líneas base de PTQ existentes. MSQ asigna escalas estáticas independientes a los tokens visuales y textuales. AIFS elimina los cálculos de escala por token, que requieren un alto coste computacional, a la vez que mantiene la atención casual mediante la reorganización del orden de los tokens. RMS mitiga los valores atípicos de peso causados por las rotaciones de Hadamard en línea. Demostramos que MQuant reduce la latencia de inferencia hasta en un 30 % en cinco MLLM líderes, incluyendo Qwen-VL, MiniCPM-V y CogVLM2, manteniendo una precisión de punto flotante casi equivalente (<1 % de degradación) en W4A8. El código fuente está disponible en GitHub.