En este artículo, proponemos una nueva tarea, "Restauración de Imágenes con Conciencia de Texto (TAIR)", para restaurar simultáneamente el contenido visual y la precisión del texto y abordar el fenómeno de la "ilusión texto-imagen", donde los métodos actuales de restauración de imágenes basados en la difusión tienen dificultades para restaurar regiones de texto y generar patrones de texto realistas pero incorrectos. Para ello, construimos un SA-Text de referencia a gran escala que contiene 100 000 imágenes de alta calidad y diversas instancias de texto, y proponemos un marco de difusión multitarea, TeReDiff, que integra las características internas de los modelos de difusión en el módulo de descubrimiento de texto para extraer representaciones de texto enriquecidas mediante aprendizaje conjunto. Los resultados experimentales muestran que el método propuesto mejora significativamente la precisión del reconocimiento de texto en comparación con los métodos de restauración de vanguardia existentes.