Este artículo se centra en los sistemas del Internet de las Cosas (IoT), que deben responder en tiempo real a la vez que gestionan restricciones de recursos fluctuantes, como la energía y el ancho de banda. Observamos que los métodos existentes tienen dificultades para gestionar restricciones operativas que cambian con el tiempo, y proponemos un nuevo marco de Bandido Multiarmado Presupuestado (Bandit Multi-Armado) adaptado a aplicaciones del IoT con límites operativos dinámicos. Este modelo introduce un presupuesto de violación decreciente, que permite de forma restrictiva violaciones de restricciones en las primeras etapas del aprendizaje y aplica gradualmente un cumplimiento más estricto con el tiempo. Presentamos el algoritmo de Límite Superior de Confianza Presupuestado (UCB), que equilibra adaptativamente la optimización del rendimiento y el cumplimiento de restricciones variables en el tiempo, y ofrecemos garantías teóricas de que el UCB presupuestado logra un arrepentimiento sublineal y violaciones de restricciones logarítmicas durante el periodo de aprendizaje. Simulaciones exhaustivas en un entorno de comunicación inalámbrica demuestran que el método propuesto logra una adaptación más rápida y un mejor cumplimiento de las restricciones que los métodos de aprendizaje en línea estándar, lo que destaca el potencial del marco para construir sistemas del IoT adaptativos y con capacidad de adaptación a los recursos.