본 논문은 표 형태 데이터의 분류 체계 추론을 위한 두 가지 대규모 언어 모델(LLM) 기반 방법, EmTT와 GeTT를 제시합니다. 기존의 스키마 추론 시스템이 XML, JSON 또는 RDF 데이터에 집중하고 데이터의 어휘 형식 및 구조에 의존하는 것과 달리, 본 논문은 표 전체의 텍스트 의미를 활용합니다. EmTT는 BERT와 같은 인코더 전용 LLM을 사용하여 열을 임베딩하고 군집화를 통해 계층 구조를 구축하며, GeTT는 GPT-4와 같은 디코더 전용 LLM을 사용하여 반복적인 프롬프팅을 통해 표 엔티티 유형과 계층 구조를 생성합니다. 세 개의 실제 데이터셋에 대한 광범위한 평가 결과, EmTT와 GeTT 모두 기준 진실에 비해 강력한 일관성을 가진 분류 체계를 생성하는 것으로 나타났습니다.