Este artículo se basa en el hallazgo de que los modelos lingüísticos a gran escala (LLM), que han demostrado un rendimiento excepcional en diversas tareas de comprensión de textos no estructurados, también pueden realizar tareas de comprensión tabular (estructurada) sin necesidad de entrenamiento especial. Probamos los LLM en diversos dominios, incluyendo WTQ basado en Wikipedia, TAT-QA financiero y SCITAB científico, bajo diversas aumentaciones y perturbaciones. Investigamos los efectos del aprendizaje en contexto (ICL), el tamaño del modelo, el ajuste directivo y el sesgo de dominio en la robustez de la respuesta a preguntas tabular (TQA). Si bien el ajuste directivo y los LLM más grandes y modernos ofrecen un rendimiento de TQA más sólido y robusto, persisten problemas de contaminación y fiabilidad de los datos, especialmente en WTQ. Un análisis exhaustivo de la atención reveló una fuerte correlación entre los cambios en la distribución de la atención debidos a perturbaciones y la degradación del rendimiento, con un pico de sensibilidad en las capas intermedias del modelo. Esto resalta la necesidad de desarrollar mecanismos de autoatención con conciencia estructural y técnicas de procesamiento adaptativas al dominio para mejorar la transparencia, la generalización y la fiabilidad real de los LLM para datos tabulares.