Este artículo enfatiza la importancia de comprender documentos visualmente ricos (texto, diseños complejos e integración de imágenes) y señala las limitaciones de los métodos existentes de Extracción de Información Clave (KIE) (retraso debido a la dependencia del OCR, altos costos computacionales y errores). Para superar estas limitaciones, presentamos STNet, un novedoso modelo integral que extrae texto directamente de imágenes sin OCR. STNet utiliza tokens especiales para observar (ver) regiones de la imagen relevantes para una pregunta y, con base en estos, proporciona respuestas precisas y base visual (tell). Para mejorar el rendimiento del modelo, utilizamos GPT-4 para construir el conjunto de datos TVG (TableQA con Base Visual), que contiene pares de preguntas-respuestas (QA) basados en texto y base visual precisa. Los resultados experimentales demuestran un rendimiento de vanguardia en conjuntos de datos disponibles públicamente como CORD, SROIE y DocVQA. El código también se hará público.