Les algorithmes contextuels de bandit multi-bras (MAB) existants ne parviennent pas à capturer efficacement les tendances à long terme et les schémas locaux sur tous les bras, ce qui entraîne des performances sous-optimales dans des environnements où les structures de récompense évoluent rapidement. De plus, ils reposent sur un taux de recherche statique qui ne s'adapte pas dynamiquement aux conditions changeantes. Pour surmonter ces limitations, nous proposons dans cet article LNUCB-TA, un modèle de bandit hybride qui intègre une nouvelle composante non linéaire (les k-plus proches voisins adaptatifs [k-NN]) afin de réduire la complexité temporelle et les mécanismes de recherche d'attention globaux et locaux. Notre approche combine de manière unique des techniques d'estimation linéaire et non linéaire, et le module non linéaire ajuste dynamiquement k en fonction de la variance de la récompense afin d'améliorer la reconnaissance des schémas spatio-temporels. Cela réduit la probabilité de sélectionner des bras sous-optimaux et améliore la précision de l'estimation de la récompense et l'efficacité de calcul. Le mécanisme basé sur l'attention classe les bras en fonction des performances passées et de la fréquence de sélection, et ajuste dynamiquement l'exploration et l'exploitation en temps réel sans qu'il soit nécessaire d'ajuster manuellement le taux de recherche. En intégrant l'attention globale (évaluant tous les bras collectivement) et l'attention locale (se concentrant sur chaque bras), LNUCB-TA s'adapte efficacement à la complexité temporelle et spatiale. Les résultats expérimentaux montrent que LNUCB-TA surpasse significativement les bandits linéaires, non linéaires et hybrides de pointe en termes de récompense cumulative et moyenne, de convergence et de robustesse à différents taux d'exploration. L'analyse théorique confirme également sa fiabilité grâce à des limites de regret sous-linéaires.