Cet article se concentre sur les systèmes de l'Internet des objets (IoT), qui doivent réagir en temps réel tout en gérant des contraintes de ressources fluctuantes telles que l'énergie et la bande passante. Nous constatons que les méthodes existantes peinent à gérer les contraintes opérationnelles qui évoluent au fil du temps, et proposons un nouveau modèle de Bandit Multi-Armé Budgété, adapté aux applications IoT avec des limites opérationnelles dynamiques. Ce modèle introduit un budget de violation décroissant, qui autorise de manière restrictive les violations de contraintes dès les premières étapes de l'apprentissage et impose progressivement une conformité plus stricte au fil du temps. Nous présentons l'algorithme de Limite Supérieure de Confiance Budgétée (UCB), qui équilibre de manière adaptative l'optimisation des performances et la conformité aux contraintes variables dans le temps, et fournit des garanties théoriques que l'UCB Budgétée atteint des violations de contraintes à regret sous-linéaire et logarithmiques pendant la période d'apprentissage. Des simulations approfondies dans un environnement de communication sans fil démontrent que la méthode proposée permet une adaptation plus rapide et une meilleure satisfaction des contraintes que les méthodes d'apprentissage en ligne standard, soulignant le potentiel de ce modèle pour la construction de systèmes IoT adaptatifs et sensibles aux ressources.