MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
Created by
Haebom
Category
Empty
저자
Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish
개요
본 논문은 테이블 및 테이블 기반 사용 사례에 대한 모델의 능력을 종합적으로 평가하기 위해 설계된 대규모 벤치마크인 MMTU를 소개합니다. MMTU는 25가지 실제 테이블 작업에 걸쳐 28,000개 이상의 질문을 포함하며, 전문가 수준의 테이블 이해, 추론 및 조작 능력을 평가합니다. OpenAI GPT-5 및 DeepSeek R1과 같은 최첨단 모델조차도 MMTU에서 각각 약 69%와 57%의 점수를 기록하여 개선의 여지가 있음을 보여줍니다.
시사점, 한계점
•
MMTU는 실제 테이블 작업을 포괄적으로 평가하는 새로운 대규모 벤치마크를 제공합니다.
•
본 벤치마크는 테이블 이해, 추론 및 코딩 능력 등 다양한 기술을 요구합니다.
•
최첨단 모델조차도 MMTU에서 낮은 성능을 보여, 이 분야의 추가적인 연구 및 개발의 필요성을 강조합니다.
•
본 연구는 NL-to-SQL 및 Table-QA와 같은 좁은 범위의 작업에 국한되지 않고 전문가들이 직면하는 광범위한 실제 테이블 작업을 다룹니다.