Aryabhata 1.0은 인도의 대입 시험인 JEE를 위해 최적화된 70억 개 매개변수의 소형 수학 추론 모델입니다. 기존의 대규모 언어 모델(LLM)들이 교육용으로 부적합한 경우가 많은 반면, Aryabhata 1.0은 강력한 오픈 가중치 추론 모델들을 결합하고, 검증된 사고 과정(CoT) 추적을 사용하여 지도 학습 미세 조정(SFT)과 커리큘럼 학습을 통해 개발되었습니다. A2C 목표와 그룹 상대적 이점 추정을 사용하는 검증 가능한 보상을 사용한 강화 학습(RLVR)과 적응적 그룹 크기 조정 및 온도 조절과 같은 새로운 탐색 전략을 적용하여 성능을 더욱 향상시켰습니다. JEE Main 2025와 같은 분포 내(in-distribution) 및 MATH, GSM8K와 같은 분포 외(out-of-distribution) 벤치마크에서 기존 모델보다 정확도와 효율성이 뛰어나며, 교육적으로 유용한 단계별 추론을 제공합니다. Aryabhata 1.0은 시험 중심의 오픈소스 소형 언어 모델을 발전시키기 위한 기반 모델로 공개됩니다.