Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models

Created by
  • Haebom

저자

Ce Li, Xiaofan Liu, Zhiyan Song, Ce Chi, Chen Zhao, Jingjing Yang, Zhendong Wang, Kexin Yang, Boshen Shi, Xing Wang, Chao Deng, Junlan Feng

개요

본 논문은 표 형태 데이터에 대한 대규모 언어 모델(LLM)의 추론 능력 평가를 위한 포괄적인 벤치마크인 TReB를 제시합니다. 기존의 LLM들이 표 데이터의 숨겨진 의미, 복잡성, 구조적 특성으로 인해 어려움을 겪는다는 점을 지적하며, 표 이해 및 추론 능력을 측정하는 26개의 하위 작업으로 구성된 TReB를 통해 이러한 문제를 해결하고자 합니다. 반복적인 데이터 처리 과정을 거쳐 고품질 데이터셋을 구축하고, 세 가지 추론 방식(TCoT, PoT, ICoT)을 포함하는 강력한 평가 프레임워크를 제시하여 20개 이상의 최첨단 LLM을 벤치마킹했습니다. 실험 결과, 기존 LLM들이 복잡한 실제 세계의 표 관련 작업에서 여전히 개선의 여지가 많음을 보여줍니다. 데이터셋과 평가 프레임워크는 huggingface.co/datasets/JT-LM/JIUTIAN-TReB 및 github.com/JT-LM/jiutian-treb에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
표 형태 데이터에 대한 LLM의 추론 능력을 종합적으로 평가할 수 있는 새로운 벤치마크 TReB를 제공합니다.
표 이해 및 추론 능력 향상을 위한 방향을 제시합니다.
공개된 데이터셋과 평가 프레임워크를 통해 LLM 연구의 발전에 기여합니다.
현존하는 LLM의 표 데이터 처리 능력의 한계를 명확히 제시합니다.
한계점:
TReB가 모든 유형의 표 데이터 및 추론 작업을 완벽하게 포괄하지 못할 수 있습니다.
벤치마킹에 사용된 LLM의 종류 및 버전에 따라 결과가 달라질 수 있습니다.
평가 프레임워크의 설계 및 구현에 따른 편향이 존재할 수 있습니다.
👍