Limitations: El análisis de las diferencias en el sesgo según las características de los participantes (edad, ocupación, conocimientos previos de IA, etc.) es insuficiente. Se necesita más investigación, utilizando una gama más amplia de contenido generado por IA y una gama más amplia de métodos de evaluación. Solo abordamos el sesgo debido a las etiquetas, y es posible que no se haya considerado plenamente el impacto de las diferencias cualitativas del propio contenido en los resultados de la evaluación.