Este artículo investiga la robustez de los modelos de clasificación contrafactual (CLTR) existentes mediante extensos experimentos basados en simulación. Para mejorar los estudios de simulación existentes (T97426) que emplean modelos de clasificación de referencia débiles, modelos de simulación de usuario simplificados y un número fijo de registros de clics sintéticos, realizamos experimentos utilizando modelos de clasificación de referencia con rendimiento variable, modelos de simulación de múltiples usuarios y un número variable de sesiones sintéticas. Nuestros resultados experimentales muestran que los modelos IPS-DCM, DLA-PBM y UPE superan a otros modelos CLTR en diversas configuraciones de simulación. Además, observamos que cuando el modelo de clasificación de referencia es sólido y el número de sesiones de entrenamiento es limitado, los modelos CLTR existentes a menudo no superan a los modelos de referencia de clics simples, lo que sugiere la necesidad de nuevos algoritmos CLTR que aborden estas condiciones.