본 논문은 사전 훈련 없이 표 데이터 이해 작업을 수행하는 대규모 언어 모델(LLM)의 성능을 다양한 데이터셋(WTQ, TAT-QA, SCITAB)과 증강/변형 기법을 활용하여 평가합니다. 문맥 내 학습(ICL), 모델 규모, 지시어 튜닝, 도메인 편향이 표 질의응답(TQA)의 강건성에 미치는 영향을 분석하며, 지시어 튜닝과 대규모 최신 LLM이 더 강력하고 강건한 TQA 성능을 제공하지만, 특히 WTQ에서 데이터 오염 및 신뢰성 문제는 해결되지 않음을 보여줍니다. 주의 분석을 통해 성능 저하와 주의 분산 변화 간의 상관관계를 밝히고, 더 신뢰할 수 있는 LLM 개발을 위해 해석 가능한 방법론의 개선 필요성을 강조합니다.