Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Created by
  • Haebom

Autor

Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li

Describir

Este artículo presenta un enfoque novedoso para la comprensión eficiente del lenguaje visual de imágenes de teledetección (RSI) de gran tamaño. Los modelos de lenguaje visual a gran escala (LVLM) existentes presentan limitaciones, ya que utilizan cuadrículas predefinidas con limitaciones en el procesamiento de imágenes, lo que resulta en pérdida de información al procesar RSI de gigapíxeles. Para abordar este problema, proponemos un método de poda de tokens guiado por texto que integra una pirámide de imagen dinámica (DIP). Este método utiliza la capacidad de localización de la región de reconocimiento de texto mediante un módulo centrado en la región (RFM) para identificar tokens visuales importantes y realiza la selección y poda de tokens visuales desde mosaicos de imagen gruesos hasta mosaicos de imagen finos basados en la salida del RFM, reduciendo así la complejidad computacional sin procesar directamente la imagen completa. Además, para superar las limitaciones de los puntos de referencia de evaluación de LVLM existentes, construimos un nuevo punto de referencia LRS-VQA que incluye 7333 pares de QA en ocho categorías con longitudes de imagen de hasta 27 328 píxeles. El método propuesto supera las estrategias de alta resolución existentes en cuatro conjuntos de datos utilizando los mismos datos y demuestra una mayor eficiencia que los métodos de reducción de tokens existentes en entornos de alta resolución. El código fuente y el conjunto de datos están disponibles en GitHub (https://github.com/VisionXLab/LRS-VQA) .

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método para la comprensión eficiente del lenguaje visual de imágenes masivas de teledetección.
Reducción de la complejidad computacional y minimización de la pérdida de información mediante la pirámide de imagen dinámica (DIP) y la poda de tokens de guía de texto.
Construimos un nuevo punto de referencia de preguntas y respuestas RSI de alta resolución, LRS-VQA, que supera las limitaciones de los puntos de referencia existentes.
Se demostró un rendimiento y una eficiencia superiores en comparación con las estrategias de alta resolución y los métodos de reducción de tokens existentes.
Limitations:
Se necesita una mayor validación de la generalidad y escalabilidad del punto de referencia LRS-VQA.
Es necesario evaluar el rendimiento de generalización del método propuesto para varios tipos de RSI gigantes.
Puede depender en gran medida del rendimiento de RFM.
👍