Sign In

PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning?

Created by
  • Haebom
Category
Empty

저자

Mitodru Niyogi, Arnab Bhattacharya

개요

본 논문은 도메인 특화된 토크나이저와 Chain-of-Thought(CoT) 지시어 미세조정을 사용하여 소규모 생성 언어 모델(SLM)을 도메인 특화 방식으로 처음부터 사전 훈련하는 것이 수학적 추론에서 대규모 언어 모델(LLM)에 비해 경쟁력 있는 성능을 달성하는지, 그리고 이러한 접근 방식이 환경적으로 지속 가능하고 비용 효율적인지 여부를 연구합니다. 이를 위해 연구진은 수학에 특화된 2억 8백만 파라미터의 새로운 디코더 전용 자기회귀 SLM인 Paramanu-Ganita를 제시합니다. Paramanu-Ganita는 웹 페이지, 소스 코드, 교과서, CoT 템플릿 기반 StackOverflow QA 쌍, LaTeX로 작성된 수학 강의 노트 등으로 구성된 혼합 수학 말뭉치 315억 토큰을 사용하여 170 A100 시간 동안 컨텍스트 크기 4096으로 처음부터 사전 훈련되었습니다. 또한 수학 및 코드에 특화된 BPE 토크나이저를 훈련했습니다. MetaMathQA 데이터셋에서 Paramanu-Ganita의 CoT 지시어 미세 조정을 수행했습니다. Paramanu-Ganita는 70억 파라미터 LLM보다 34배 작음에도 불구하고, 일반 LLM보다 약 30%p, 수학 전문 LLM보다 323%p 높은 GSM8K 테스트 정확도를 달성했습니다. MATH 벤치마크에서도 다른 모델보다 68%p 우수한 성능을 보였으며, LogiQA, MMLU(고등학교, 대학교 수준), AGIEVAL(AQuA-RAT, SAT-Math)과 같은 벤치마크에서도 1~4%p의 성능 향상을 보였습니다. 훈련된 모델은 Hugging Face에서 공개되었습니다.

시사점, 한계점

시사점:
소규모 SLM이 도메인 특화 사전 훈련과 CoT 미세 조정을 통해 대규모 LLM과 경쟁할 수 있는 성능을 달성할 수 있음을 보여줌.
환경적으로 지속 가능하고 비용 효율적인 대규모 언어 모델 개발 전략 제시.
수학적 추론 분야에서 우수한 성능을 보이는 경량 모델 Paramanu-Ganita 공개.
한계점:
본 연구는 특정 도메인(수학)에 집중되어 있어 다른 도메인으로의 일반화 가능성은 추가 연구가 필요.
사용된 데이터셋의 편향성이 모델 성능에 영향을 미칠 수 있음.
더욱 다양하고 대규모의 데이터셋을 사용한 추가 실험을 통해 성능 개선 및 일반화 가능성을 검증할 필요가 있음.
👍