Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Plus de rentabilité : modélisation des récompenses de processus avec incertitude induite par l'entropie

Created by
  • Haebom

Auteur

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li

Contour

Le modèle de récompense de processus d'incertitude piloté par l'entropie (EDU-PRM) est un nouveau cadre d'apprentissage de modélisation de récompense de processus piloté par l'entropie. Il permet une segmentation dynamique et ajustée à l'incertitude d'étapes d'inférence complexes sans nécessiter d'annotation manuelle. Contrairement aux modèles de récompense de processus (PRM) existants qui reposent sur une segmentation statique et un étiquetage manuel, l'EDU-PRM définit automatiquement les limites des étapes aux jetons présentant une entropie de prédiction élevée. Sur l'ensemble de test MATH, l'EDU-PRM atteint une précision de 65,5 %, surpassant les puissants modèles de référence PRM publics tels que Math-Shepherd PRM (61,7 %) et Omega PRM (62,4 %). De plus, le remplacement de l'échantillonnage HT par l'échantillonnage EDU améliore à la fois la précision et l'efficacité. À N = 64, la précision passe de 64,7 % (échantillon HT + BON) à 67,3 % (échantillon EDU + BON), tandis que le nombre de jetons générés diminue de 47 %, démontrant un excellent rapport précision-coût. Sur l'ensemble de tests ProcessBench, EDU-PRM a atteint une précision de pointe de 88,4 % en utilisant moins de 1,5 % des données d'entraînement Qwen2.5-Math-PRM-72B, surpassant le précédent record de 87,8 %. En résumé, EDU-PRM fournit un paradigme évolutif et optimisé en termes d'annotations pour la supervision des processus en inférence mathématique, ouvrant la voie à une inférence complexe efficace en mathématiques.

Takeaways, Limitations

Takeaways:
Il améliore considérablement l’efficacité de la modélisation de la compensation des processus en éliminant le besoin d’annotation manuelle.
La segmentation dynamique des étapes basée sur l'entropie permet une modélisation plus précise des processus d'inférence complexes.
Nous avons obtenu des résultats qui ont dépassé les performances de pointe précédentes sur les ensembles de tests MATH et ProcessBench.
L'échantillonnage EDU améliore l'efficacité en réduisant le nombre de jetons générés tout en améliorant la précision.
Dans le domaine du raisonnement mathématique, nous présentons un nouveau paradigme pour un raisonnement complexe efficace.
Limitations:
Les performances d'EDU-PRM sont basées sur les résultats d'ensembles de données spécifiques (MATH, ProcessBench), et les performances de généralisation sur d'autres ensembles de données ou types de problèmes nécessitent des recherches plus approfondies.
La segmentation par étapes basée sur l'entropie ne garantit pas toujours une segmentation optimale, et des recherches sur des techniques de segmentation par étapes plus sophistiquées peuvent être nécessaires.
ÉTant donné que cet article utilise un modèle spécifique (Qwen2.5-Math-PRM-72B), des recherches supplémentaires sont nécessaires sur l’applicabilité et les changements de performances pour d’autres modèles.
👍