Este artículo propone AdaLLaVA, un marco de inferencia adaptativo para la inferencia eficiente de modelos lingüísticos multimodales a gran escala (MLLM). Los MLLM convencionales presentan dificultades para implementarse en entornos con recursos limitados debido a sus altos costos computacionales. AdaLLaVA aborda este desafío mediante un enfoque basado en el aprendizaje que reconfigura dinámicamente los cálculos del MLLM durante la inferencia, considerando los datos de entrada y los presupuestos de latencia. Mediante diversos experimentos de referencia, que incluyen preguntas y respuestas, inferencia y alucinación, demostramos que AdaLLaVA cumple eficazmente con los presupuestos de latencia de entrada y logra diversos equilibrios entre precisión y latencia en función del tiempo de ejecución. Además, demostramos que AdaLLaVA se adapta a la latencia y al contenido de entrada, se integra con la selección de tokens para mejorar la eficiencia y se generaliza a diversos MLLM.