Table-R1: Region-based Reinforcement Learning for Table Understanding
Created by
Haebom
저자
Zhenhe Wu, Jian Yang, Jiaheng Liu, Xianjie Wu, Changzai Pan, Jie Zhang, Yu Zhao, Shuangyong Song, Yongxiang Li, Zhoujun Li
개요
본 논문은 대규모 언어 모델(LLM)의 표 데이터 이해 및 질의응답 성능 향상을 위한 새로운 강화학습 기반 접근법인 Table-R1을 제시합니다. Table-R1은 영역 기반 추론을 통해 관련 표 영역을 식별하고 텍스트, 기호 및 프로그램 기반 추론을 통합하여 질문에 대한 답변을 생성합니다. 특히, Region-Enhanced Supervised Fine-Tuning (RE-SFT) 와 Table-Aware Group Relative Policy Optimization (TARPO) 기법을 활용하여 모델의 영역 식별 능력과 답변 정확도를 향상시키고, 응답 토큰 소비량을 줄입니다. 실험 결과, Table-R1은 세 개의 벤치마크 데이터셋에서 다양한 기본 모델들에 대해 평균 14.36점의 성능 향상을 달성하였으며, 파라미터 수가 10배 많은 기본 모델보다도 우수한 성능을 보였습니다. TARPO는 기존 GRPO에 비해 응답 토큰 소비량을 67.5% 감소시켰습니다.
시사점, 한계점
•
시사점:
◦
LLM의 표 데이터 이해 및 질의응답 성능을 향상시키는 새로운 강화학습 기반 접근법(Table-R1) 제시.
◦
RE-SFT와 TARPO 기법을 통해 모델의 영역 식별 능력과 답변 정확도 향상 및 응답 토큰 소비량 감소.
◦
제한된 파라미터로도 대규모 모델을 능가하는 성능 달성.
◦
효율적인 표 데이터 추론을 위한 LLM의 능력을 크게 향상.
•
한계점:
◦
제시된 방법론의 일반화 성능에 대한 추가적인 연구 필요.
◦
다양한 유형의 표 데이터 및 복잡한 질문에 대한 로버스트성 평가 필요.
◦
특정 벤치마크 데이터셋에 대한 성능 평가 결과이므로, 다른 데이터셋으로의 일반화 가능성 검증 필요.