Dans cet article, nous présentons une architecture réseau basée sur des transformateurs pour le sous-titrage d'images de télédétection (RSIC). Nous évaluons et intégrons plusieurs techniques, dont l'expansion statique, l'auto-attention augmentée en mémoire et le transformateur de maillage, et évaluons le modèle à l'aide de deux jeux de données d'images de télédétection, UCM-Caption et NWPU-Caption. Le modèle le plus performant proposé surpasse les systèmes de pointe dans la plupart des paramètres d'évaluation, démontrant ainsi son potentiel d'application aux systèmes d'images de télédétection réels.