Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

Created by
  • Haebom

Auteur

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei

Contour

Cet article présente un nouveau cadre probabiliste pour la mise à l'échelle du temps d'inférence (ITS) afin d'améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). Il surmonte les limites des méthodes conventionnelles d'échantillonnage parallèle basées sur des heuristiques et établit les bases théoriques d'une mise à l'échelle optimale du temps d'inférence, en supposant que les échantillons parallèles sont indépendants et identiquement distribués. En estimant la distribution de probabilité d'une stratégie de sélection « best of N », nous dérivons une borne inférieure théorique du nombre minimal d'échantillons requis pour atteindre un niveau de performance cible. À partir de cette borne inférieure, nous développons l'algorithme OptScale, qui détermine dynamiquement le nombre optimal d'échantillons. OptScale utilise un prédicteur basé sur un modèle de langage pour estimer les paramètres a priori probabilistes et déterminer le nombre minimal d'échantillons satisfaisant des seuils de performance et des niveaux de confiance prédéfinis. Des expériences approfondies sur des benchmarks d'inférence mathématique tels que MATH-500, GSM8K, AIME et AMC démontrent qu'OptScale réduit considérablement la charge d'échantillonnage tout en maintenant des performances d'inférence de pointe. Cet article fournit des fondements théoriques et des solutions pratiques, contribuant ainsi significativement au déploiement efficace des LLM pour l'inférence complexe. Le code source est accessible au public.

Takeaways, Limitations

Takeaways:
Nous fournissons la première base théorique pour l’extension du temps d’inférence du LLM.
Nous présentons l'algorithme OptScale, qui réduit efficacement les coûts de calcul en calculant le nombre minimum d'échantillons requis pour atteindre les performances cibles.
Il démontre des résultats qui maintiennent ou dépassent les performances SOTA dans les tests de raisonnement mathématique.
La reproductibilité et la convivialité ont été améliorées grâce au code open source.
Limitations:
En partant de l’hypothèse que les échantillons parallèles sont indépendants et distribués de manière identique, une dégradation des performances peut se produire si la distribution des données réelles ne répond pas à cette hypothèse.
Les performances de l’algorithme OptScale peuvent être affectées par la précision du prédicteur basé sur le modèle de langage.
Actuellement, seuls les résultats expérimentaux pour les critères de raisonnement mathématique sont présentés, et la généralisabilité à d’autres types de tâches nécessite des recherches supplémentaires.
👍