Cet article souligne l'importance de la compréhension des documents visuellement riches (texte, mises en page complexes et intégration d'images) et souligne les limites des méthodes d'extraction d'informations clés (KIE) existantes (retard dû à la dépendance à l'OCR, coûts de calcul élevés et erreurs). Pour surmonter ces limites, nous présentons STNet, un nouveau modèle de bout en bout qui extrait le texte directement des images sans OCR. STNet utilise des jetons spéciaux pour observer (voir) les zones d'image pertinentes pour une question et, sur cette base, fournit des réponses précises et un ancrage visuel (dire). Afin d'améliorer les performances du modèle, nous utilisons GPT-4 pour construire le jeu de données TVG (TableQA avec ancrage visuel), qui contient des paires de questions-réponses (QA) textuelles et un ancrage visuel précis. Les résultats expérimentaux démontrent des performances de pointe sur des jeux de données accessibles au public tels que CORD, SROIE et DocVQA. Le code sera également rendu public.