Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Dans cet article, nous proposons un nouveau cadre, le décodage spéculatif guidé par la récompense (RSD), pour améliorer l'efficacité de l'inférence des modèles de langage à grande échelle (LLM). Le RSD combine un modèle préliminaire léger avec un modèle cible plus puissant, intégrant un biais contrôlé qui priorise les sorties à forte récompense, contrairement aux méthodes conventionnelles de décodage spéculatif non biaisé. Nous optimisons le compromis entre coût de calcul et qualité de sortie en utilisant un modèle de récompense de processus qui évalue les étapes de décodage intermédiaires et décide dynamiquement d'invoquer ou non le modèle cible. Nous démontrons théoriquement qu'une stratégie hybride basée sur des seuils permet d'obtenir le compromis optimal entre utilisation des ressources et performances. Des évaluations approfondies sur des tests d'inférence complexes, notamment des tâches de niveau Olympiade, démontrent que le RSD offre des gains d'efficacité significatifs (jusqu'à 4,4 fois moins de FLOP) par rapport au décodage avec le modèle cible seul, tout en atteignant une précision nettement supérieure (jusqu'à +3,5) en moyenne aux méthodes de décodage parallèle. Ces résultats soulignent que RSD est une approche robuste et rentable pour le déploiement de LLM dans des scénarios gourmands en ressources. Le code est disponible à l' adresse https://github.com/BaohaoLiao/RSD .