Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Revue du regroupement des bandits neuronaux : réinitialisation sélective pour atténuer la perte de plasticité

Created by
  • Haebom

Auteur

Zhiyuan Su, Sunhao Dai, Xiao Zhang

Contour

Cet article propose le cadre de réinitialisation sélective (SeRe) pour résoudre le problème de « perte de plasticité » de l'algorithme de clustering de bandits neuronaux (CNB), une extension de la technique de clustering (CB) de l'algorithme des bandits basée sur un réseau neuronal. Bien que le CNB améliore les performances en regroupant des bandits similaires, ses paramètres réseau se fixent au fil du temps, ce qui rend difficile l'adaptation aux environnements anormaux. SeRe atténue la perte de plasticité et assure une rétention stable des connaissances en réinitialisant sélectivement les unités sous-utilisées à l'aide d'une métrique d'utilité contributive. De plus, il garantit une adaptation efficace sans réinitialisation inutile grâce à un mécanisme adaptatif de détection des changements qui ajuste la fréquence de réinitialisation en fonction du degré d'anomalie. Théoriquement, SeRe permet d'obtenir un regret cumulatif sous-linéaire dans des environnements à intervalles normaux. Des expériences sur six jeux de données de recommandation réels démontrent un regret moindre, une adaptabilité et une robustesse améliorées par rapport à l'algorithme CNB existant.

Takeaways, Limitations

Takeaways:
Nous présentons le cadre SeRe pour résoudre efficacement le problème de perte de plasticité de l'algorithme CNB.
Obtenir à la fois une rétention stable des connaissances et une adaptabilité améliorée grâce à une réinitialisation sélective à l'aide de mesures d'utilité de contribution.
Adaptation efficace aux environnements anormaux grâce à des mécanismes adaptatifs de détection des changements.
Vérification de la supériorité du SeRe par analyse théorique et résultats expérimentaux.
Contribue à améliorer les performances des algorithmes de bandit dans des environnements dynamiques tels que les systèmes de recommandation réels.
Limitations :
Des recherches supplémentaires sont nécessaires pour définir et optimiser les mesures d’utilité contributive.
Il est nécessaire d’évaluer les performances de généralisation de SeRe pour différents types d’anomalies.
L’évolutivité et le coût de calcul de SeRe pour les données de grande dimension doivent être analysés.
Une analyse plus approfondie est nécessaire pour déterminer l’impact des caractéristiques de l’ensemble de données expérimentales sur les performances de SeRe.
👍