Este estudio investigó los sesgos de autoevaluación y revisión por pares utilizando tres modelos de lenguaje a gran escala (LLM): ChatGPT, Gemini y Claude. Cada modelo se evaluó bajo cuatro condiciones (sin etiqueta, etiqueta verdadera y dos escenarios con etiqueta falsa) para entradas de blog escritas por cada modelo, utilizando la votación general de preferencias y calificaciones de calidad para la consistencia, el grado de información y la concisión. Los resultados revelaron que el nombre del modelo ("Claude", "Gemini") influyó significativamente en los resultados de la evaluación. La etiqueta "Claude" tendió a aumentar las puntuaciones, mientras que la etiqueta "Gemini" tendió a disminuirlas, e incluso las etiquetas falsas invirtieron las clasificaciones. Esto demuestra que la conciencia de identidad de un modelo puede influir significativamente tanto en los juicios de alto nivel como en las evaluaciones detalladas de calidad.