Aryabhata 1.0 là một mô hình suy luận toán học nhỏ với 7 tỷ tham số được tối ưu hóa cho kỳ thi tuyển sinh JEE của Ấn Độ. Trong khi các mô hình ngôn ngữ quy mô lớn (LLM) hiện có thường không đủ để đào tạo, Aryabhata 1.0 kết hợp các mô hình suy luận trọng số mở mạnh mẽ và được phát triển thông qua tinh chỉnh học có giám sát (SFT) và học tập chương trình giảng dạy bằng cách sử dụng theo dõi quá trình suy nghĩ đã được chứng minh (CoT). Nó cải thiện hiệu suất hơn nữa bằng cách áp dụng các chiến lược khám phá mới, chẳng hạn như Học tăng cường với phần thưởng có thể xác minh (RLVR) sử dụng mục tiêu A2C và ước tính lợi thế tương đối của nhóm, cũng như quy mô nhóm thích ứng và kiểm soát nhiệt độ. Nó vượt trội hơn các mô hình hiện có về độ chính xác và hiệu quả trên các điểm chuẩn trong phân phối như JEE Main 2025 và các điểm chuẩn ngoài phân phối như MATH và GSM8K, đồng thời cung cấp suy luận từng bước hữu ích về mặt giáo dục. Aryabhata 1.0 được phát hành như một mô hình nền tảng để phát triển các mô hình ngôn ngữ nhỏ tập trung vào bài kiểm tra, nguồn mở.