Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modulación de la atención dinámica de frecuencia para la predicción densa

Created by
  • Haebom

Autor

Linwei Chen, Lin Gu, Ying Fu

Describir

En este artículo, proponemos una técnica de modulación de atención dinámica de frecuencia (FDAM) para resolver el problema de pérdida de frecuencia, que es un importante Limitations de los transformadores de visión (ViTs). El mecanismo de atención existente de los ViTs actúa como un filtro paso bajo, lo que causa la pérdida de información detallada y textura, mientras que FDAM modula directamente la respuesta de frecuencia de los ViTs mediante dos técnicas: inversión de atención (AttInv), que genera filtrado de alta frecuencia invirtiendo la matriz de atención, y escalamiento dinámico de frecuencia (FreqScale), que pondera varios componentes de frecuencia. Demuestra una mejora del rendimiento en varios modelos como SegFormer, DeiT y MaskDINO en tareas como segmentación semántica, detección de objetos y segmentación de instancias, y logra un rendimiento de vanguardia en el campo de la detección por teledetección en particular.

Takeaways, Limitations

Takeaways:
Se presenta FDAM, una nueva técnica para resolver eficazmente el problema de pérdida de frecuencia de los ViTs.
Control preciso de la respuesta de frecuencia de ViTs mediante inversión de atención (AttInv) y escalamiento dinámico de frecuencia (FreqScale).
Mejoras consistentes del rendimiento en una variedad de modelos y tareas de transformadores de visión
Lograr un rendimiento de última generación en detección por teledetección
Garantizar la reproducibilidad mediante código abierto
Limitations:
Existe la posibilidad de que los efectos de FDAM puedan estar sesgados hacia ciertos modelos o tareas (se necesitan más experimentos y análisis).
Posible aumento de los costes computacionales (se necesita investigación sobre métodos de implementación eficientes)
Se necesitan experimentos adicionales en diferentes conjuntos de datos e hiperparámetros.
👍