본 논문은 표 형태 데이터에 대한 대규모 언어 모델(LLM)의 추론 능력 평가를 위한 포괄적인 벤치마크인 TReB를 제시합니다. 기존의 LLM들이 표 데이터의 숨겨진 의미, 복잡성, 구조적 특성으로 인해 어려움을 겪는다는 점을 지적하며, 표 이해 및 추론 능력을 측정하는 26개의 하위 작업으로 구성된 TReB를 통해 이러한 문제를 해결하고자 합니다. 반복적인 데이터 처리 과정을 거쳐 고품질 데이터셋을 구축하고, 세 가지 추론 방식(TCoT, PoT, ICoT)을 포함하는 강력한 평가 프레임워크를 제시하여 20개 이상의 최첨단 LLM을 벤치마킹했습니다. 실험 결과, 기존 LLM들이 복잡한 실제 세계의 표 관련 작업에서 여전히 개선의 여지가 많음을 보여줍니다. 데이터셋과 평가 프레임워크는 huggingface.co/datasets/JT-LM/JIUTIAN-TReB 및 github.com/JT-LM/jiutian-treb에서 공개적으로 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
표 형태 데이터에 대한 LLM의 추론 능력을 종합적으로 평가할 수 있는 새로운 벤치마크 TReB를 제공합니다.