Sign In

TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

Created by
  • Haebom
Category
Empty

저자

Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng

개요

복잡한 표 형식 데이터에 대한 추론은 실제 데이터 분석에 중요하지만, 대규모 언어 모델(LLM)은 복잡한 쿼리, 노이즈가 있는 데이터, 제한된 수치 능력으로 인해 성능이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해, 쿼리 분해기, 테이블 정제기, 실행 가능한 코드를 생성하는 PoT 기반 추론기로 구성된 프레임워크인 \method를 제안합니다. 편향되지 않은 평가와 데이터 유출을 방지하기 위해, 복잡한 수치 추론을 위한 새로운 데이터 세트인 CalTab151을 소개합니다. 실험 결과는 \method가 TAT-QA, TableBench, \method에서 각각 8.79%, 6.08%, 19.87%의 정확도 향상을 보이며 기존 방법들을 능가하는 SOTA 성능을 달성함을 보여줍니다. 또한, 이 프레임워크는 주류 LLM과 원활하게 통합되어 복잡한 표 형식 수치 추론에 대한 강력한 솔루션을 제공합니다.

시사점, 한계점

시사점:
복잡한 표 형식 데이터에 대한 LLM 성능 향상을 위한 효과적인 프레임워크 제시
쿼리 분해, 데이터 정제, PoT 기반 추론을 결합하여 성능 개선
새로운 데이터셋 CalTab151 도입을 통한 객관적인 평가
기존 방법 대비 SOTA 성능 달성
주류 LLM과의 통합 가능성
한계점:
논문에서 한계점에 대한 직접적인 언급은 없음 (요약된 내용에 한해서)
👍