Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Taxonomy Inference for Tabular Data Using Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zhenyu Wu, Jiaoyan Chen, Norman W. Paton

개요

본 논문은 표 형태 데이터의 분류 체계 추론을 위한 두 가지 대규모 언어 모델(LLM) 기반 방법, EmTT와 GeTT를 제시합니다. 기존의 스키마 추론 시스템이 XML, JSON 또는 RDF 데이터에 집중하고 데이터의 어휘 형식 및 구조에 의존하는 것과 달리, 본 논문은 표 전체의 텍스트 의미를 활용합니다. EmTT는 BERT와 같은 인코더 전용 LLM을 사용하여 열을 임베딩하고 군집화를 통해 계층 구조를 구축하며, GeTT는 GPT-4와 같은 디코더 전용 LLM을 사용하여 반복적인 프롬프팅을 통해 표 엔티티 유형과 계층 구조를 생성합니다. 세 개의 실제 데이터셋에 대한 광범위한 평가 결과, EmTT와 GeTT 모두 기준 진실에 비해 강력한 일관성을 가진 분류 체계를 생성하는 것으로 나타났습니다.

시사점, 한계점

시사점:
LLM을 활용하여 표 형태 데이터의 분류 체계 추론 문제를 효과적으로 해결할 수 있는 새로운 방법 제시.
기존 방법의 한계점인 데이터의 어휘 형식 및 구조에 대한 의존성을 극복.
표 전체의 텍스트 의미를 활용하여 더욱 정확하고 일관성 있는 분류 체계 생성.
EmTT와 GeTT 두 가지 방법을 제시하여 다양한 LLM 아키텍처에 대한 적용 가능성을 보여줌.
한계점:
제시된 방법의 성능 평가가 특정 데이터셋에 국한되어 일반화 가능성에 대한 추가 연구 필요.
LLM의 성능에 의존적이므로, LLM의 한계가 본 방법의 성능에 영향을 미칠 수 있음.
실제 데이터셋의 규모가 제한적이어서 대규모 데이터셋에서의 성능 검증이 필요함.
Ground Truth의 정확성에 따라 결과의 신뢰도가 달라질 수 있음.
👍