Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Maximiser la confiance à elle seule améliore le raisonnement

Created by
  • Haebom

Auteur

Mihir Prabhudesai, Lili Chen, Alex Ippoliti, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Contour

Dans cet article, nous proposons RENT (Reinforcement Learning via Entropy Minimization), une méthode d'apprentissage par renforcement non supervisé qui utilise l'entropie d'un modèle comme récompense intrinsèque, sans récompenses externes ni réponses correctes. RENT améliore la capacité d'inférence en renforçant le processus de réflexion hautement fiable des réponses générées par le modèle. Nous démontrons l'amélioration des performances par des expériences sur divers benchmarks d'inférence tels que GSM8K, MATH500, AMC, AIME et GPQA, ainsi que sur des modèles de tailles diverses des séries Qwen, Mistral et Llama. Il s'agit d'une méthode d'apprentissage non supervisé générale qui peut être appliquée à un large éventail de domaines où la supervision externe est impossible.

Takeaways, Limitations_

Takeaways:
Nous proposons une méthode d'apprentissage par renforcement non supervisé qui utilise l'entropie du modèle sans récompenses externes, suggérant ainsi une nouvelle direction pour résoudre le problème de la conception de la fonction de récompense, qui est une difficulté dans l'apprentissage par renforcement existant.
Nous démontrons la généralité et l’utilité de notre méthode en démontrant des améliorations de performances sur plusieurs modèles et benchmarks de tailles variables.
Augmente l’applicabilité dans les domaines où les données de surveillance externes font défaut.
Limitations:
ÉTant donné que cet article ne présente que des résultats expérimentaux pour des modèles et des repères spécifiques, les performances de généralisation pour d’autres modèles ou repères nécessitent des recherches supplémentaires.
Une analyse plus approfondie est nécessaire pour déterminer si la minimisation de l’entropie conduit toujours à une amélioration optimale des performances d’inférence.
Une description détaillée de la conception et de l’optimisation des fonctions de récompense basées sur l’entropie peut faire défaut.
👍