Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Aryabhata : un modèle de langage axé sur les examens pour JEE Math

Created by
  • Haebom

Auteur

Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma

Contour

Aryabhata 1.0 est un petit modèle d'inférence mathématique de 7 milliards de paramètres, optimisé pour l'examen d'entrée indien, le JEE. Alors que les modèles linguistiques à grande échelle (LLM) existants sont souvent inadaptés à la formation, Aryabhata 1.0 combine de puissants modèles d'inférence pondérés ouverts et a été développé grâce à l'apprentissage supervisé (SFT) et à l'apprentissage curriculaire utilisant un suivi éprouvé des cours de pensée (CoT). Il améliore encore les performances grâce à l'application de stratégies d'exploration innovantes, telles que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) utilisant l'objectif A2C et l'estimation de l'avantage relatif du groupe, ainsi que le dimensionnement adaptatif des groupes et le contrôle de la température. Il surpasse les modèles existants en termes de précision et d'efficacité sur les benchmarks internes tels que JEE Main 2025 et les benchmarks externes tels que MATH et GSM8K, et fournit une inférence étape par étape utile à l'enseignement. Aryabhata 1.0 est publié comme modèle fondamental pour le développement de petits modèles linguistiques open source, axés sur les tests.

Takeaways, Limitations_

Takeaways:
Démontre le potentiel d’un petit LLM adapté à un environnement d’apprentissage axé sur les examens.
Démontre une utilité pédagogique en fournissant de puissantes capacités de raisonnement et un raisonnement étape par étape.
Il est publié en open source, garantissant la possibilité de contribution et de développement de la communauté.
Amélioration des performances grâce à de nouvelles stratégies d'exploration telles que l'estimation de l'avantage relatif de la cible A2C et du groupe, le dimensionnement adaptatif du groupe et le contrôle de la température.
Limitations:
Il est spécialisé pour l'examen JEE et peut avoir une généralisabilité limitée à d'autres types de problèmes ou de sujets mathématiques.
ÉTant donné que le modèle est petit, sa capacité à résoudre des problèmes complexes peut être limitée.
Actuellement, il est spécifique à l’examen JEE en Inde et son applicabilité à d’autres pays ou systèmes éducatifs nécessite une étude plus approfondie.
👍