Sign In

How well do LLMs reason over tabular data, really?

Created by
  • Haebom
Category
Empty

저자

Cornelius Wolff, Madelon Hulsebos

개요

본 논문은 대규모 언어 모델(LLM)이 표 형식 데이터에 대한 추론 능력에서 보이는 문제점을 분석하고, 실제 데이터 특성을 반영한 평가 방법론을 제시한다. 기존 평가 방식의 한계를 지적하고, LLM의 표 형식 데이터 추론 능력이 실제 데이터의 특징(결측값, 중복 엔티티, 구조적 변형)에 얼마나 취약한지를 실험을 통해 확인한다.

시사점, 한계점

LLM의 표 형식 데이터 추론 능력은 기존 평가 방식으로는 정확히 파악하기 어렵다.
LLM-as-a-judge 방식이 보다 신뢰할 수 있는 성능 평가 결과를 제공한다.
LLM은 실제 데이터에서 흔히 나타나는 결측값, 중복 엔티티, 구조적 변형에 취약하다.
LLM의 실제 표 형식 데이터 처리 능력을 향상시키기 위한 연구가 필요하다.
👍