En este artículo, presentamos una arquitectura de red basada en transformadores para el subtitulado de imágenes de teledetección (RSIC). Evaluamos e integramos diversas técnicas, como la expansión estática, la autoatención aumentada con memoria y el transformador de malla, y evaluamos el modelo utilizando dos conjuntos de datos de imágenes de teledetección: UCM-Caption y NWPU-Caption. El modelo propuesto, con el mejor rendimiento, supera a los sistemas más avanzados en la mayoría de las métricas de evaluación, lo que demuestra su potencial de aplicación en sistemas reales de imágenes de teledetección.