Cet article examine la robustesse des modèles de classement contrefactuels (CLTR) existants au moyen d'expériences approfondies basées sur la simulation. Afin d'améliorer les études de simulation existantes (T47508) qui utilisent des modèles de classement de base faibles, des modèles de simulation utilisateur simplifiés et un nombre fixe de journaux de clics synthétiques, nous menons des expériences avec des modèles de classement de base aux performances variables, plusieurs modèles de simulation utilisateur et un nombre variable de sessions synthétiques. Nos résultats expérimentaux montrent que les modèles IPS-DCM, DLA-PBM et UPE surpassent les autres modèles CLTR dans divers contextes de simulation. De plus, nous constatons que les modèles CLTR existants ne surpassent souvent pas les modèles de base de clics simples lorsque le modèle de classement de base est performant et que le nombre de sessions d'apprentissage est limité, ce qui suggère la nécessité de nouveaux algorithmes CLTR pour répondre à ces conditions.