Cet article s'appuie sur la constatation que les modèles linguistiques à grande échelle (MLH), qui ont démontré des performances exceptionnelles dans diverses tâches de compréhension de textes non structurés, peuvent également réaliser des tâches de compréhension tabulaire (structurées) sans entraînement spécifique. Nous avons testé les LHH sur divers domaines, notamment le WTQ basé sur Wikipédia, le TAT-QA financier et le SCITAB scientifique, sous diverses augmentations et perturbations. Nous avons étudié les effets de l'apprentissage en contexte (ICL), de la taille du modèle, du réglage directif et du biais de domaine sur la robustesse des réponses aux questions tabulaires (TQA). Si le réglage directif et des LHH plus grands et plus modernes permettent d'obtenir des performances TQA plus solides et plus robustes, des problèmes de contamination et de fiabilité des données subsistent, notamment en WTQ. Une analyse approfondie de l'attention a révélé une forte corrélation entre les changements de distribution de l'attention dus aux perturbations et la dégradation des performances, la sensibilité atteignant un pic dans les couches intermédiaires du modèle. Cela souligne la nécessité de développer des mécanismes d'auto-attention sensibles à la structure et des techniques de traitement adaptatives au domaine afin d'améliorer la transparence, la généralisation et la fiabilité en conditions réelles des LHH pour les données tabulaires.