Cette étude a examiné les biais d'auto-évaluation et d'évaluation par les pairs à l'aide de trois modèles linguistiques à grande échelle (MLE) : ChatGPT, Gemini et Claude. Chaque modèle a été évalué selon quatre conditions (absence d'étiquette, étiquette vraie et deux scénarios d'étiquette fausse) pour les articles de blog rédigés par chaque modèle, en utilisant un vote de préférence global et des notes de qualité pour la cohérence, le contenu informatif et la concision. Les résultats ont révélé que le nom du modèle (« Claude », « Gemini ») influençait significativement les résultats de l'évaluation. L'étiquette « Claude » tendait à augmenter les scores, tandis que l'étiquette « Gemini » tendait à les diminuer, et les fausses étiquettes inversaient même les classements. Cela démontre que la conscience qu'a un modèle de son identité peut influencer significativement les jugements généraux et les évaluations de qualité détaillées.