Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente un cadre d'optimisation de politique adaptative en longueur (LAPO) pour résoudre le problème de la génération excessive de jetons dans les modèles d'inférence à grande échelle. LAPO utilise un processus d'apprentissage par renforcement en deux étapes qui déplace le contrôle de la longueur d'inférence d'une contrainte externe à une capacité inhérente au modèle. Dans la première étape, il découvre une distribution statistique des longueurs de solutions réussies pour apprendre des modèles d'inférence naturels. Dans la deuxième étape, il exploite ces modèles comme guide métacognitif, les intégrant directement au contexte d'inférence du modèle pour obtenir une flexibilité dans le temps d'inférence. Les résultats expérimentaux sur des benchmarks d'inférence mathématique démontrent que LAPO réduit l'utilisation de jetons jusqu'à 40,9 % et améliore la précision de 2,3 %. Les résultats analytiques démontrent que les modèles entraînés avec LAPO peuvent allouer des ressources de calcul en fonction de la complexité du problème, permettant une inférence efficace sans compromettre la qualité.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons un nouveau cadre qui peut améliorer considérablement l’efficacité des modèles linguistiques à grande échelle.
◦
Renforcer les capacités de raisonnement métacognitif qui allouent dynamiquement les ressources informatiques en fonction de la complexité du problème.
◦
Améliorations substantielles des performances en termes d’utilisation réduite des jetons et de précision améliorée.
•
Limitations:
◦
L’efficacité du cadre LAPO est limitée aux critères de raisonnement mathématique, et sa généralisabilité à d’autres types de problèmes nécessite des études plus approfondies.
◦
ÉTant donné qu’il s’agit d’un apprentissage par renforcement, il est possible que des ressources informatiques importantes soient consommées au cours du processus de formation.
◦
Une validation supplémentaire des performances et de l’évolutivité dans les applications du monde réel est nécessaire.