Aryabhata 1.0は、インドの代入テストであるJEEに最適化された70億のパラメータを持つ小型数学推論モデルです。従来の大規模言語モデル(LLM)が教育に適していないことが多いのに対し、Aryabhata 1.0は強力なオープンウェイト推論モデルを組み合わせ、実績のある思考プロセス(CoT)追跡を使用して指導学習微調整(SFT)とカリキュラム学習によって開発されました。 A2Cの目標とグループの相対的な利点の推定を使用した検証可能な補償を使用した強化学習(RLVR)と、適応的なグループのサイズ変更と温度調整などの新しいナビゲーション戦略を適用して、パフォーマンスをさらに向上させました。 JEE Main 2025などの分布内およびMATH、GSM8Kなどの分布外ベンチマークでは、従来のモデルよりも精度と効率性が高く、教育的に有用な段階的な推論を提供します。 Aryabhata 1.0は、試験中心のオープンソース小型言語モデルを発展させるための基盤モデルとして公開されています。