Este artículo evalúa el desempeño de la recomendación de expertos en física utilizando seis modelos de lenguaje de gran escala y peso abierto (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b y llama3.1-70b). Examinamos sesgos relacionados con la consistencia, la factualidad, el género, la etnia, la popularidad académica y la similitud académica en cinco tareas (los mejores k expertos por campo, científicos influyentes por disciplina, era, antigüedad y correspondencia académica). Establecemos puntos de referencia académicos basados en datos del mundo real de la American Physical Society (APS) y OpenAlex, y comparamos los resultados de los modelos con los registros académicos del mundo real. Nuestro análisis revela inconsistencias y sesgos en todos los modelos, con mixtral-8x7b produciendo el resultado más estable, mientras que llama3.1-70b exhibió la mayor variabilidad. Muchos modelos exhibieron redundancias, con gemma2-9b y llama3.1-8b en particular exhibiendo una alta prevalencia de errores de formato. Si bien los LLM generalmente recomiendan científicos de renombre, muestran sistemáticamente poca precisión al consultar por campo, época y antigüedad, favoreciendo a los académicos con mayor trayectoria. Persisten sesgos de representación, como el desequilibrio de género (predominantemente masculino), la infrarrepresentación de científicos asiáticos y la sobrerrepresentación de académicos blancos. A pesar de la diversidad de instituciones y redes de colaboración, el modelo favorece a los académicos altamente citados y productivos, lo que refuerza el efecto de que los ricos se enriquecen, a la vez que ofrece una representación geográfica limitada.