Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models
Created by
Haebom
저자
Lang Cao, Jingxian Xu, Hanbing Liu, Jinyu Wang, Mengyu Zhou, Haoyu Dong, Shi Han, Dongmei Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 표 데이터 이해 능력 향상을 위한 새로운 강화 학습 프레임워크인 Formula Tuning (Fortune)을 제안합니다. Fortune은 복잡한 표 데이터에 대한 질문 응답을 위해 실행 가능한 스프레드시트 수식을 생성하도록 LLM을 학습시키는 RL 프레임워크로, 수식 주석에 대한 의존성을 줄이고 이진 답변 정확도를 보상 신호로 사용하여 모델이 추론을 통해 수식을 도출하도록 유도합니다. 7개의 표 추론 벤치마크에 대한 광범위한 실험을 통해, 특히 다단계 수치 및 기호 추론 작업에서 LLM 성능을 크게 향상시키고, 7B 모델이 OpenAI o1을 능가하는 결과를 보여줍니다. 이는 수식 기반 RL이 LLM의 기호적 표 추론을 발전시킬 수 있는 잠재력을 강조합니다.
시사점, 한계점
•
시사점:
◦
LLM의 표 데이터 이해 능력 향상에 효과적인 새로운 강화학습 기법(Formula Tuning) 제시