Este artículo estudia la fiabilidad de colecciones de pruebas sintéticas generadas mediante modelos de lenguaje a gran escala (LLM). Investigamos posibles sesgos en colecciones de pruebas sintéticas que utilizan LLM para generar consultas, etiquetas o ambas, y analizamos su impacto en la evaluación del sistema. Nuestros resultados demuestran la presencia de sesgos en las evaluaciones realizadas con colecciones de pruebas sintéticas, lo que sugiere que, si bien el sesgo puede afectar las mediciones absolutas del rendimiento del sistema, podría ser menos significativo al comparar el rendimiento relativo del sistema.