Este artículo destaca la importancia de la evaluación en el desarrollo de algoritmos de clasificación para sistemas de búsqueda y recomendación, con especial atención a la mejora de la eficiencia de las pruebas A/B en entornos online. Destaca las limitaciones de las pruebas A/B, que pueden requerir mucho tiempo para alcanzar la potencia estadística suficiente para las métricas basadas en la conversión, especialmente en compras de alto valor, como las reservas de hotel. Para abordar esto, desarrollamos un método de evaluación semiexperimental intercalado que realiza rápidamente evaluaciones online para identificar a los candidatos más prometedores para las pruebas A/B. Nuestro enfoque mejora la sensibilidad experimental hasta 100 veces en comparación con las pruebas A/B tradicionales (según el método y las métricas) y agiliza el proceso experimental. Los conocimientos prácticos obtenidos en operaciones reales pueden ser beneficiosos para organizaciones con intereses similares.