Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modulación de la atención dinámica de frecuencia para la predicción densa

Created by
  • Haebom

Autor

Linwei Chen, Lin Gu, Ying Fu

Describir

En este artículo, proponemos una novedosa técnica de Modulación Dinámica de Atención de Frecuencia (FDAM) para resolver el problema de decaimiento de frecuencia, que es un Limitations principal de Transformador de Visión (ViT). FDAM consta de dos técnicas: Inversión de Atención (AttInv), que invierte la característica del filtro paso bajo del mecanismo de atención, y Escalamiento Dinámico de Frecuencia (FreqScale), que ajusta los pesos de los componentes de frecuencia, inspirados en la teoría de circuitos. A través de estas técnicas, podemos ajustar directamente la respuesta de frecuencia de ViT para evitar la pérdida de detalles y texturas, y lograr mejoras de rendimiento en varios modelos (SegFormer, DeiT, MaskDINO) y tareas (Segmentación Semántica, Detección de Objetos, Segmentación de Instancias). En particular, ha logrado un rendimiento de vanguardia en el campo de la teledetección.

Takeaways, Limitations

Takeaways:
Una nueva solución al problema de disipación de frecuencia de ViT
Propuesta de una técnica FDAM original basada en la teoría de circuitos
Mejoras consistentes del rendimiento en una variedad de modelos y tareas
Lograr un rendimiento de vanguardia en teledetección
Garantizar la reproducibilidad mediante código público
Limitations:
Existe la posibilidad de que el efecto de FDAM esté sesgado hacia ciertos modelos y tareas (se necesita verificación mediante experimentos adicionales).
Análisis y optimización necesarios para aumentar el volumen computacional
Se necesita más investigación sobre el rendimiento de la generalización en diversos conjuntos de datos.
👍