본 논문은 6개의 오픈-웨이트 대규모 언어 모델(llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b)을 사용하여 물리학 전문가 추천 성능을 평가한 연구입니다. 5가지 과제(분야별 상위 k명 전문가, 학문 분야별 영향력 있는 과학자, 시대, 선임, 학자 대응)에 걸쳐 일관성, 사실성, 성별, 민족, 학문적 인기, 학자 유사성과 관련된 편향을 조사했습니다. 미국 물리학회(APS)와 OpenAlex의 실제 데이터를 기반으로 학문적 벤치마크를 설정하여 모델 출력을 실제 학술 기록과 비교했습니다. 분석 결과 모든 모델에서 일관성 부족 및 편향이 드러났으며, mixtral-8x7b가 가장 안정적인 출력을 생성한 반면 llama3.1-70b는 변동성이 가장 높았습니다. 많은 모델에서 중복이 나타났고, 특히 gemma2-9b와 llama3.1-8b는 형식 오류가 많았습니다. LLM은 일반적으로 실제 과학자를 추천하지만, 분야, 시대, 선임별 질의에서는 정확도가 떨어지고 고참 학자를 선호하는 경향이 일관되게 나타났습니다. 성별 불균형(남성 중심 반영), 아시아계 과학자의 과소 대표, 백인 학자의 과대 대표 등의 대표성 편향이 지속적으로 나타났습니다. 기관 및 협력 네트워크의 다양성에도 불구하고, 모델은 인용 횟수가 많고 생산적인 학자를 선호하여 부익부빈익빈 효과를 강화하는 동시에 지리적 대표성은 제한적이었습니다.