Cet article présente un modèle visant à améliorer l'efficacité des systèmes décisionnels combinant intelligence artificielle (IA) et humains, notamment les systèmes de modération de contenu sur les réseaux sociaux. Les pipelines IA-humain existants reposent sur de simples heuristiques basées sur des seuils qui ne prennent pas en compte l'incertitude liée à l'estimation des risques de l'IA, la variabilité temporelle du flux de contenu, la capacité d'évaluation humaine et l'échantillonnage sélectif. Dans cet article, nous proposons un modèle dans lequel l'IA observe les informations contextuelles pour prendre des décisions de classification et d'évaluation, et planifie les tâches d'évaluation tout en tenant compte des retards du système d'évaluation humaine. Au cours du processus d'évaluation humaine, les erreurs d'IA sont corrigées et de nouvelles données sont acquises, afin de minimiser le coût des tâches mal classées. Nous présentons un algorithme d'apprentissage sous-optimal qui équilibre soigneusement la perte de classification des ensembles de données échantillonnés de manière sélective, la perte inhérente des tâches non évaluées et la perte de retard due à la congestion du système d'évaluation humaine. Des expériences numériques utilisant un ensemble de données de contenu en ligne démontrent que notre modèle réduit significativement les erreurs de classification par rapport aux méthodes existantes. Ces résultats constituent la première démonstration de l'apprentissage en ligne dans un système de file d'attente contextuelle.