Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

Created by
  • Haebom

Auteur

Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei, Qing Li

Contour

Cet article présente une technique de mise à l'échelle du temps d'inférence permettant d'améliorer les performances d'inférence des modèles de langage à grande échelle (MLH). Nous soulignons que les méthodes de mise à l'échelle du temps d'inférence existantes reposent souvent sur des stratégies heuristiques et manquent donc de fondement théorique. Nous proposons un cadre probabiliste formalisant une mise à l'échelle optimale du temps d'inférence en supposant que les échantillons parallèles sont indépendants et identiquement distribués. Dans ce cadre, nous dérivons une borne inférieure théorique du nombre d'échantillons requis pour atteindre un niveau de performance cible et développons OptScale, un algorithme pratique qui détermine dynamiquement le nombre optimal d'échantillons en fonction de cette borne inférieure théorique. OptScale estime les paramètres a priori probabilistes à l'aide d'un prédicteur basé sur un modèle de langage et détermine le nombre minimal d'échantillons requis pour satisfaire un seuil de performance et un niveau de confiance prédéfinis. Grâce à des expériences approfondies sur des benchmarks d'inférence mathématique (notamment MATH-500, GSM8K, AIME et AMC), nous démontrons qu'OptScale atteint des performances comparables, voire supérieures, aux performances d'inférence les plus récentes, tout en réduisant considérablement la charge d'échantillonnage. En conclusion, cet article fournit à la fois une base théorique et une solution pratique qui comble une lacune critique dans le déploiement efficace des LLM pour l'inférence complexe.

Takeaways, Limitations

Takeaways:
Il fournit la première base théorique pour les extensions de l’inférence du LLM.
Nous présentons un algorithme pratique (OptScale) qui maintient des performances de pointe tout en réduisant la surcharge d'échantillonnage.
Nous vérifions expérimentalement l’efficacité d’OptScale sur les benchmarks d’inférence mathématique.
Il présente de nouvelles possibilités pour une distribution efficace du LLM.
Limitations:
Elle repose en grande partie sur l’hypothèse selon laquelle les échantillons parallèles sont indépendants et distribués de manière identique, une hypothèse qui n’est pas toujours satisfaite dans la pratique.
Les performances d'OptScale dépendent de la précision du prédicteur basé sur le modèle de langage, et toute dégradation des performances du prédicteur peut avoir un impact sur les performances de l'ensemble du système.
Des recherches supplémentaires sont nécessaires sur la généralisabilité à différents types de tâches de raisonnement.
Une validation supplémentaire est nécessaire pour déterminer si les résultats peuvent être généralisés à des modèles linguistiques ou à des repères spécifiques.
👍