Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

LNUCB-TA : Apprentissage hybride linéaire-non linéaire avec attention temporelle

Created by
  • Haebom

Auteur

Hamed Khosravi, Mohammad Reza Shafie, Ahmed Shoyeb Raihan, Srinjoy Das, Imtiaz Ahmed

Contour

Les algorithmes contextuels de bandit multi-bras (MAB) existants ne parviennent pas à capturer efficacement les tendances à long terme et les schémas locaux sur tous les bras, ce qui entraîne des performances sous-optimales dans des environnements où les structures de récompense évoluent rapidement. De plus, ils reposent sur un taux de recherche statique qui ne s'adapte pas dynamiquement aux conditions changeantes. Pour surmonter ces limitations, nous proposons dans cet article LNUCB-TA, un modèle de bandit hybride qui intègre une nouvelle composante non linéaire (les k-plus proches voisins adaptatifs [k-NN]) afin de réduire la complexité temporelle et les mécanismes de recherche d'attention globaux et locaux. Notre approche combine de manière unique des techniques d'estimation linéaire et non linéaire, et le module non linéaire ajuste dynamiquement k en fonction de la variance de la récompense afin d'améliorer la reconnaissance des schémas spatio-temporels. Cela réduit la probabilité de sélectionner des bras sous-optimaux et améliore la précision de l'estimation de la récompense et l'efficacité de calcul. Le mécanisme basé sur l'attention classe les bras en fonction des performances passées et de la fréquence de sélection, et ajuste dynamiquement l'exploration et l'exploitation en temps réel sans qu'il soit nécessaire d'ajuster manuellement le taux de recherche. En intégrant l'attention globale (évaluant tous les bras collectivement) et l'attention locale (se concentrant sur chaque bras), LNUCB-TA s'adapte efficacement à la complexité temporelle et spatiale. Les résultats expérimentaux montrent que LNUCB-TA surpasse significativement les bandits linéaires, non linéaires et hybrides de pointe en termes de récompense cumulative et moyenne, de convergence et de robustesse à différents taux d'exploration. L'analyse théorique confirme également sa fiabilité grâce à des limites de regret sous-linéaires.

Takeaways, Limitations_

Takeaways:
Un nouvel algorithme de bandit hybride LNUCB-TA qui s'adapte efficacement aux environnements en évolution rapide est présenté.
Intégration de mécanismes k-NN non linéaires et d'attention pour réduire la complexité temporelle et améliorer la reconnaissance des formes spatio-temporelles.
Ajustement dynamique du taux d'exploration et d'utilisation sans ajustement manuel du taux d'exploration
Récompenses cumulatives et moyennes améliorées, vitesse de convergence et robustesse par rapport aux algorithmes de pointe
Preuve des limites de regret sous-linéaires par analyse théorique
Limitations:
Des recherches supplémentaires sont nécessaires sur le réglage des paramètres (k) de k-NN.
Nécessité d'évaluer l'évolutivité et les performances de généralisation pour les données de grande dimension
Une validation expérimentale approfondie pour les applications du monde réel est nécessaire
👍