Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models

Created by
  • Haebom

저자

Lang Cao, Jingxian Xu, Hanbing Liu, Jinyu Wang, Mengyu Zhou, Haoyu Dong, Shi Han, Dongmei Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 표 데이터 이해 능력 향상을 위한 새로운 강화 학습 프레임워크인 Formula Tuning (Fortune)을 제안합니다. Fortune은 복잡한 표 데이터에 대한 질문 응답을 위해 실행 가능한 스프레드시트 수식을 생성하도록 LLM을 학습시키는 RL 프레임워크로, 수식 주석에 대한 의존성을 줄이고 이진 답변 정확도를 보상 신호로 사용하여 모델이 추론을 통해 수식을 도출하도록 유도합니다. 7개의 표 추론 벤치마크에 대한 광범위한 실험을 통해, 특히 다단계 수치 및 기호 추론 작업에서 LLM 성능을 크게 향상시키고, 7B 모델이 OpenAI o1을 능가하는 결과를 보여줍니다. 이는 수식 기반 RL이 LLM의 기호적 표 추론을 발전시킬 수 있는 잠재력을 강조합니다.

시사점, 한계점

시사점:
LLM의 표 데이터 이해 능력 향상에 효과적인 새로운 강화학습 기법(Formula Tuning) 제시
수식 주석에 대한 의존도 감소 및 이진 답변 정확도를 보상 신호로 활용
다단계 수치 및 기호 추론 작업에서 LLM 성능을 크게 향상
7B 모델이 OpenAI o1을 능가하는 성능 달성
수식 기반 강화학습의 잠재력 확인
한계점:
제시된 벤치마크 데이터셋의 일반화 가능성에 대한 추가 검증 필요
다른 유형의 표 데이터나 더 복잡한 추론 문제에 대한 성능 평가 필요
Formula Tuning의 계산 비용 및 학습 시간에 대한 분석 필요
👍