Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendiendo a inferir de forma adaptativa para modelos lingüísticos multimodales de gran tamaño

Created by
  • Haebom

Autor

Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li

Describir

Este artículo propone AdaLLaVA, un marco de inferencia adaptativo para la inferencia eficiente de modelos lingüísticos multimodales a gran escala (MLLM). Los MLLM convencionales presentan dificultades para implementarse en entornos con recursos limitados debido a sus altos costos computacionales. AdaLLaVA aborda este desafío mediante un enfoque basado en el aprendizaje que reconfigura dinámicamente los cálculos del MLLM durante la inferencia, considerando los datos de entrada y los presupuestos de latencia. Mediante diversos experimentos de referencia, que incluyen preguntas y respuestas, inferencia y alucinación, demostramos que AdaLLaVA cumple eficazmente con los presupuestos de latencia de entrada y logra diversos equilibrios entre precisión y latencia en función del tiempo de ejecución. Además, demostramos que AdaLLaVA se adapta a la latencia y al contenido de entrada, se integra con la selección de tokens para mejorar la eficiencia y se generaliza a diversos MLLM.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método para utilizar MLLM de manera eficiente incluso en entornos con recursos limitados.
Ajuste dinámicamente las operaciones MLLM en función de los datos de entrada y el presupuesto de latencia para lograr un rendimiento óptimo.
La integración con la selección de tokens presenta el potencial de lograr mayores ganancias de eficiencia.
Un marco general aplicable a varios MLLM.
Limitations:
El rendimiento de AdaLLaVA puede variar según el MLLM utilizado y el conjunto de datos de referencia.
Se necesita una mayor validación del rendimiento de generalización en entornos del mundo real.
El rendimiento del procesamiento para preguntas o imágenes muy complejas puede requerir más investigación.
👍