Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PriorCLIP: Modelo visual de visión y lenguaje guiado por prior para la recuperación de imágenes y texto mediante teledetección

Created by
  • Haebom

Autor

Jiancheng Pan, Muyuan Ma, Qing Ma, Cong Bai, Shengyong Chen

Describir

Para abordar los desafíos de la recuperación de imagen a texto mediante teledetección, este artículo propone PriorCLIP, un modelo visual-lingüístico que aprovecha la información previa visual. PriorCLIP aprovecha la información previa visual para el aprendizaje de representaciones imparciales y la alineación adaptativa de imagen a lenguaje. En un entorno de dominio cerrado, PriorCLIP utiliza arquitecturas espaciales y temporales de Codificadores de Atención Progresiva (PAE) para filtrar características salientes, mitigar el sesgo semántico y mejorar las representaciones textuales. En un entorno de dominio abierto, PriorCLIP diseña una estrategia de aprendizaje de representaciones de diccionario en dos etapas que consiste en el entrenamiento de diccionarios a gran escala en pares de imagen a texto aproximados y el ajuste fino mediante indicadores visuales, lo que permite una recuperación robusta de conceptos de cola larga y variaciones léxicas. Además, proponemos una pérdida de atribución contrastiva simétrica basada en clústeres para restringir las relaciones entre clases y mitigar la confusión semántica en un espacio de incrustación compartido. Experimentos exhaustivos en los puntos de referencia RSICD y RSITMD demuestran que PriorCLIP logra mejoras de rendimiento significativas con respecto a los métodos existentes: 4,9% y 4,0% en recuperación de dominio cerrado, y 7,3% y 9,4% en recuperación de dominio abierto.

Takeaways, Limitations

Takeaways:
Mejorar el rendimiento de recuperación de imágenes a texto mediante teledetección proponiendo un nuevo modelo de lenguaje visual, PriorCLIP, que aprovecha la información visual previa.
Logra un rendimiento superior a los métodos existentes en configuraciones de dominio cerrado y abierto.
Se presentan técnicas efectivas como la estructura PAE, la estrategia de aprendizaje de representación de diccionario de dos etapas y la función de pérdida basada en grupos.
Limitations:
Falta de análisis del coste computacional y la complejidad del modelo propuesto.
Es necesario evaluar el rendimiento de la generalización en varios conjuntos de datos de teledetección.
Se necesita más investigación sobre su utilidad y escalabilidad en aplicaciones del mundo real.
👍