Cet article se concentre sur la réduction de la latence dans les workflows d'inférence d'IA, constitués de pipelines ou de graphes de programmes d'IA déclenchés par des événements. Les techniques standard de réduction de la latence dans les environnements de streaming, telles que la mise en cache ou la planification basée sur l'optimisation, sont limitées dans leur efficacité car les schémas d'accès aux données d'IA (modèles, bases de données) varient en fonction des événements déclencheurs. Dans cet article, nous proposons un nouveau mécanisme de regroupement par affinité qui permet aux développeurs d'exprimer plus facilement les relations d'accès aux données spécifiques à l'application, permettant ainsi une gestion coordonnée des objets de données sur les clusters de serveurs hébergeant des tâches d'inférence de streaming. Ce mécanisme complète d'autres approches, telles que la mise en cache et la planification. Les résultats expérimentaux confirment les limites des techniques standard et démontrent que le mécanisme proposé maintient une latence nettement inférieure avec des modifications de code minimales à mesure que les charges de travail et l'évolutivité augmentent.