Cet article évalue les performances de la recommandation d'experts en physique à l'aide de six modèles linguistiques à grande échelle et à pondération ouverte (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b et llama3.1-70b). Nous examinons les biais liés à la cohérence, à la factualité, au genre, à l'origine ethnique, à la popularité académique et à la similarité des chercheurs à travers cinq tâches (k meilleurs experts par domaine, scientifiques influents par discipline, époque, ancienneté et correspondance avec les chercheurs). Nous établissons des repères académiques basés sur des données réelles de l'American Physical Society (APS) et d'OpenAlex, et comparons les résultats du modèle aux dossiers académiques réels. Notre analyse révèle des incohérences et des biais dans tous les modèles, mixtral-8x7b produisant le résultat le plus stable, tandis que llama3.1-70b présentait la plus grande variabilité. De nombreux modèles ont présenté des redondances, gemma2-9b et llama3.1-8b affichant notamment une forte prévalence d'erreurs de formatage. Si les LLM recommandent généralement de véritables scientifiques, ils affichent systématiquement une faible précision lors des requêtes par domaine, époque et ancienneté, favorisant les chercheurs confirmés. Des biais de représentation persistent, notamment un déséquilibre entre les sexes (dominance masculine), une sous-représentation des scientifiques asiatiques et une surreprésentation des chercheurs blancs. Malgré la diversité des institutions et des réseaux de collaboration, le modèle privilégie les chercheurs hautement cités et productifs, renforçant ainsi l'effet « riche-devenu-enrichissant » tout en offrant une représentation géographique limitée.