Table-R1: Region-based Reinforcement Learning for Table Understanding
Created by
Haebom
저자
Zhenhe Wu, Jian Yang, Jiaheng Liu, Xianjie Wu, Changzai Pan, Jie Zhang, Yu Zhao, Shuangyong Song, Yongxiang Li, Zhoujun Li
개요
본 논문은 대규모 언어 모델(LLM)의 표 데이터 이해 및 질의응답 성능 향상을 위한 새로운 강화 학습 기반 접근법인 Table-R1을 제시합니다. Table-R1은 영역 기반 증거 통합을 통해 모델이 관련 표 영역을 식별하고 텍스트, 기호 및 프로그램 기반 추론을 활용하여 답변을 생성하도록 안내합니다. 특히, Region-Enhanced Supervised Fine-Tuning (RE-SFT)와 Table-Aware Group Relative Policy Optimization (TARPO)를 사용하여 모델의 추론 과정을 개선하고, 효율성을 높였습니다. 실험 결과, Table-R1은 다양한 기저 모델과 세 가지 벤치마크 데이터셋에서 평균 14.36점의 성능 향상을 보였으며, 파라미터 수가 10배 많은 기존 모델보다 우수한 성능을 달성했습니다. 또한 TARPO는 응답 토큰 소비량을 67.5% 감소시켰습니다.
시사점, 한계점
•
시사점:
◦
LLM의 표 데이터 이해 및 질의응답 성능을 크게 향상시키는 새로운 강화 학습 기반 방법론 제시.
◦
RE-SFT와 TARPO를 통해 모델의 추론 과정을 효과적으로 개선하고, 응답 토큰 소비량을 감소시킴.