Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LAPO : internalisation de l'efficacité du raisonnement via l'optimisation des politiques adaptatives à la longueur

Created by
  • Haebom

Auteur

Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang

Contour

Cet article présente un cadre d'optimisation de politique adaptative en longueur (LAPO) pour résoudre le problème de la génération excessive de jetons dans les modèles d'inférence à grande échelle. LAPO utilise un processus d'apprentissage par renforcement en deux étapes qui déplace le contrôle de la longueur d'inférence d'une contrainte externe à une capacité inhérente au modèle. Dans la première étape, il découvre une distribution statistique des longueurs de solutions réussies pour apprendre des modèles d'inférence naturels. Dans la deuxième étape, il exploite ces modèles comme guide métacognitif, les intégrant directement au contexte d'inférence du modèle pour obtenir une flexibilité dans le temps d'inférence. Les résultats expérimentaux sur des benchmarks d'inférence mathématique démontrent que LAPO réduit l'utilisation de jetons jusqu'à 40,9 % et améliore la précision de 2,3 %. Les résultats analytiques démontrent que les modèles entraînés avec LAPO peuvent allouer des ressources de calcul en fonction de la complexité du problème, permettant une inférence efficace sans compromettre la qualité.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui peut améliorer considérablement l’efficacité des modèles linguistiques à grande échelle.
Renforcer les capacités de raisonnement métacognitif qui allouent dynamiquement les ressources informatiques en fonction de la complexité du problème.
Améliorations substantielles des performances en termes d’utilisation réduite des jetons et de précision améliorée.
Limitations:
L’efficacité du cadre LAPO est limitée aux critères de raisonnement mathématique, et sa généralisabilité à d’autres types de problèmes nécessite des études plus approfondies.
ÉTant donné qu’il s’agit d’un apprentissage par renforcement, il est possible que des ressources informatiques importantes soient consommées au cours du processus de formation.
Une validation supplémentaire des performances et de l’évolutivité dans les applications du monde réel est nécessaire.
👍