Cet article souligne l'importance de l'évaluation dans le développement d'algorithmes de classement pour les systèmes de recherche et de recommandation, en se concentrant plus particulièrement sur l'amélioration de l'efficacité des tests A/B dans les environnements en ligne. Il met en évidence les limites des tests A/B, qui peuvent s'avérer chronophages pour atteindre une puissance statistique suffisante pour les indicateurs de conversion, notamment pour les achats à forte valeur ajoutée tels que les réservations d'hôtel. Pour y remédier, nous avons développé une méthode d'évaluation semi-expérimentale entrelacée qui effectue rapidement des évaluations en ligne afin d'identifier les candidats les plus prometteurs pour les tests A/B. Notre approche améliore la sensibilité expérimentale jusqu'à 100 fois par rapport aux tests A/B traditionnels (selon la méthode et les indicateurs) et simplifie le processus expérimental. Les enseignements pratiques tirés d'opérations concrètes peuvent être utiles aux organisations partageant les mêmes intérêts.