Bài báo này tập trung vào việc giảm độ trễ trong quy trình suy luận AI, bao gồm các đường ống hoặc đồ thị của các chương trình AI được kích hoạt bởi sự kiện. Các kỹ thuật tiêu chuẩn để giảm độ trễ trong cài đặt phát trực tuyến, chẳng hạn như lưu trữ đệm hoặc lập lịch dựa trên tối ưu hóa, bị hạn chế về hiệu quả do các mẫu truy cập dữ liệu AI (mô hình, cơ sở dữ liệu) thay đổi tùy thuộc vào các sự kiện kích hoạt. Trong bài báo này, chúng tôi đề xuất một cơ chế nhóm tương thích mới cho phép các nhà phát triển dễ dàng thể hiện các mối quan hệ truy cập dữ liệu cụ thể của ứng dụng, cho phép quản lý phối hợp các đối tượng dữ liệu trên các cụm máy chủ lưu trữ các tác vụ suy luận phát trực tuyến. Cơ chế này bổ sung cho các phương pháp tiếp cận khác, chẳng hạn như lưu trữ đệm và lập lịch. Kết quả thử nghiệm xác nhận những hạn chế của các kỹ thuật tiêu chuẩn và chứng minh rằng cơ chế được đề xuất duy trì độ trễ thấp hơn đáng kể với các thay đổi mã tối thiểu khi khối lượng công việc và khả năng mở rộng tăng lên.