Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Created by
  • Haebom
Category
Empty

저자

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish

개요

본 논문은 테이블 및 테이블 기반 사용 사례에 대한 모델의 능력을 종합적으로 평가하기 위해 설계된 대규모 벤치마크인 MMTU를 소개합니다. MMTU는 25가지 실제 테이블 작업에 걸쳐 28,000개 이상의 질문을 포함하며, 전문가 수준의 테이블 이해, 추론 및 조작 능력을 평가합니다. OpenAI GPT-5 및 DeepSeek R1과 같은 최첨단 모델조차도 MMTU에서 각각 약 69%와 57%의 점수를 기록하여 개선의 여지가 있음을 보여줍니다.

시사점, 한계점

MMTU는 실제 테이블 작업을 포괄적으로 평가하는 새로운 대규모 벤치마크를 제공합니다.
본 벤치마크는 테이블 이해, 추론 및 코딩 능력 등 다양한 기술을 요구합니다.
최첨단 모델조차도 MMTU에서 낮은 성능을 보여, 이 분야의 추가적인 연구 및 개발의 필요성을 강조합니다.
본 연구는 NL-to-SQL 및 Table-QA와 같은 좁은 범위의 작업에 국한되지 않고 전문가들이 직면하는 광범위한 실제 테이블 작업을 다룹니다.
연구 결과는 모델의 테이블 처리 및 분석 능력 개선을 위한 방향성을 제시합니다.
코드와 데이터는 공개적으로 제공됩니다.
본 논문은 구체적인 모델 개선 방법론에 대한 내용은 제시하지 않습니다.
👍