Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation de la politique budgétaire hiérarchique pour le raisonnement adaptatif

Created by
  • Haebom

Auteur

Shangke Lyu, Linjuan Wu, Yuchen Yan, Xingyu Wu, Hao Li, Yongliang Shen, Peisheng Jiang, Weiming Lu, Jun Xiao, Yueting Zhuang

Contour

Cet article présente le cadre d'optimisation hiérarchique des politiques budgétaires (HBPO) pour remédier à l'inefficacité des modèles d'inférence à grande échelle, qui effectuent systématiquement des inférences excessives malgré des exigences de calcul variables selon la complexité du problème. Contrairement aux méthodes existantes qui reposent sur des contraintes fixes ou une sélection de mode discret, HBPO partitionne l'espace de recherche en couches à budget limité (512 à 2 560 jetons) avec des structures de récompense différenciées, préservant ainsi à la fois l'efficacité et les performances d'inférence. Pour résoudre le problème des pénalités de longueur conventionnelles excluant les chemins d'inférence redondants, nous entraînons le modèle à effectuer des inférences redondantes uniquement lorsque cela est nécessaire, tout en préservant la diversité d'exploration grâce à un échantillonnage hiérarchique et des récompenses tenant compte du budget. Les résultats expérimentaux démontrent que HBPO réduit l'utilisation moyenne de jetons jusqu'à 60,6 % et améliore la précision de 3,14 % sur quatre tests d'inférence, tout en ajustant automatiquement et de manière adaptative la profondeur d'inférence en fonction de la complexité du problème. En conclusion, nous démontrons qu'un apprentissage hiérarchique approprié peut simultanément optimiser l'efficacité et les performances de l'inférence.

Takeaways, Limitations

Takeaways:
Nous présentons la possibilité d’apprendre un modèle d’inférence efficace qui ajuste dynamiquement la profondeur d’inférence en fonction de la complexité du problème.
Surmonter les limites de la méthode de pénalité de longueur simple existante et confirmer la possibilité d'améliorer simultanément l'efficacité et la précision de l'inférence.
Maintenir la diversité des recherches et prévenir les inférences excessives grâce au partitionnement hiérarchique de l'espace de recherche.
Suggérant qu’il n’y a pas de compromis entre l’efficacité et la capacité d’inférence.
Limitations:
Des recherches supplémentaires sont nécessaires pour optimiser la structure hiérarchique et les paramètres budgétaires des HBPO.
Il est nécessaire de vérifier les performances de généralisation pour différents types de problèmes d’inférence.
ÉTant donné que ces résultats concernent un point de référence spécifique, des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d’autres tâches d’inférence.
Un examen plus approfondi est nécessaire pour déterminer si la plage de contraintes budgétaires du jeton 512-2560 est appropriée à tous les problèmes.
👍