Bài báo này tập trung vào các hệ thống Internet vạn vật (IoT), vốn phải phản hồi theo thời gian thực trong khi quản lý các ràng buộc tài nguyên biến động như năng lượng và băng thông. Chúng tôi lưu ý rằng các phương pháp hiện tại gặp khó khăn trong việc xử lý các ràng buộc vận hành thay đổi theo thời gian và đề xuất một khuôn khổ Budgeted Multi-Armed Bandit mới được thiết kế riêng cho các ứng dụng IoT với giới hạn vận hành động. Mô hình này giới thiệu một ngân sách vi phạm giảm dần, cho phép vi phạm ràng buộc một cách hạn chế trong giai đoạn đầu của quá trình học và dần dần áp dụng việc tuân thủ nghiêm ngặt hơn theo thời gian. Chúng tôi trình bày thuật toán Budgeted Upper Confidence Bound (UCB), cân bằng một cách thích ứng giữa việc tối ưu hóa hiệu suất và việc tuân thủ các ràng buộc thay đổi theo thời gian, đồng thời cung cấp các đảm bảo lý thuyết rằng Budgeted UCB đạt được sự hối tiếc dưới tuyến tính và vi phạm ràng buộc logarit trong suốt quá trình học. Các mô phỏng mở rộng trong môi trường truyền thông không dây chứng minh rằng phương pháp được đề xuất đạt được khả năng thích ứng nhanh hơn và đáp ứng ràng buộc tốt hơn so với các phương pháp học trực tuyến tiêu chuẩn, làm nổi bật tiềm năng của khuôn khổ này trong việc xây dựng các hệ thống IoT thích ứng và nhận thức được tài nguyên.