본 논문은 사전 훈련 없이 표 데이터 이해 작업을 수행하는 대규모 언어 모델(LLM)의 능력을 평가한다. Wikipedia 기반 WTQ, 재무 보고서 기반 TAT-QA, 과학적 주장 기반 SCITAB 등 세 가지 TQA(Tabular Question Answering) 데이터셋을 사용하여 문맥 학습, 모델 규모, 지시어 튜닝, 도메인 편향의 영향을 분석했다. 실험 결과, 지시어가 성능 향상에 크게 기여하며 최신 모델이 이전 버전보다 견고함을 보였지만, 특히 WTQ에서 데이터 오염 및 실질적 신뢰성 문제가 지속됨을 확인했다. 더 나은 신뢰성을 위해 구조 인식 자기 주의 메커니즘과 도메인 특정 표 데이터 처리 개선의 필요성을 강조한다.