Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Landsat30-AU: Un conjunto de datos en lenguaje de visión para imágenes Landsat australianas

Created by
  • Haebom

Autor

Sai Ma, Zhuang Li, John A. Taylor

Describir

Para abordar las limitaciones de los modelos de visión-lenguaje (VLM) que permiten la interacción del lenguaje natural con imágenes satelitales, este artículo presenta Landsat30-AU, un conjunto de datos de visión-lenguaje a gran escala basado en más de 36 años de imágenes satelitales de baja resolución y larga duración a 30 metros, recopiladas por cuatro satélites Landsat (5, 7, 8 y 9) sobre Australia. Landsat30-AU consta de dos componentes: Landsat30-AU-Cap, que contiene 196.262 pares de imágenes y pies de foto, y Landsat30-AU-VQA, que contiene 17.725 muestras de preguntas y respuestas visuales (VQA) verificadas por humanos en ocho dominios de teledetección. Demostramos que los VLM existentes tienen dificultades para comprender imágenes satelitales de baja resolución y demostramos un rendimiento mejorado mediante un ajuste fino ligero con Landsat30-AU.

Takeaways, Limitations

Takeaways:
Proporcionamos un conjunto de datos de lenguaje de visión a gran escala, Landsat30-AU, que contiene datos multisatélite de baja resolución y largo plazo, sentando las bases para superar las limitaciones de los VLM existentes.
Demostramos experimentalmente la insuficiencia de los VLM existentes para la comprensión de imágenes satelitales y sugerimos la posibilidad de mejorar el rendimiento mediante un ajuste fino.
Abre nuevas posibilidades para la investigación de observación y análisis de la Tierra basadas en imágenes satelitales de baja resolución.
Limitations:
Debido a que el conjunto de datos está limitado a la región australiana, se necesita una mayor validación del rendimiento de generalización global.
Actualmente, la capacidad de los VLM para comprender imágenes satelitales aún es limitada y se necesitan modelos y técnicas más avanzados.
Falta una descripción detallada del proceso de arranque utilizado durante la creación del conjunto de datos.
👍