본 논문은 6개의 오픈-웨이트 대규모 언어 모델(llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b)을 사용하여 물리학 전문가 추천 성능을 평가한 연구입니다. 5가지 과제(분야별 상위 k명 전문가, 분야별 영향력 있는 과학자, 시대, 경력, 학자 유사성)를 통해 일관성, 사실성, 성별, 민족, 학문적 인기, 학자 유사성과 관련된 편향성을 분석했습니다. American Physical Society와 OpenAlex의 실제 데이터를 기반으로 모델 출력을 실제 학술 기록과 비교하여 벤치마크를 설정했습니다. 분석 결과, 모든 모델에서 일관성 부족과 편향성이 드러났으며, mixtral-8x7b가 가장 안정적인 출력을 생성했고, llama3.1-70b가 가장 변동성이 컸습니다. 많은 모델에서 중복이 발생했고, 특히 gemma2-9b와 llama3.1-8b는 형식 오류가 많았습니다. LLM은 대체로 실존하는 과학자를 추천했지만, 분야, 시대, 경력 특정 쿼리에서는 정확도가 떨어지고 고참 학자를 선호하는 경향을 보였습니다. 또한 성별 불균형(남성 과다 대표), 아시아계 과학자 과소 대표, 백인 학자 과대 대표 등의 대표성 편향이 지속되었습니다. 기관 및 협력 네트워크의 다양성에도 불구하고, 모델은 인용 횟수가 많고 생산성이 높은 학자를 선호하여 부익부빈익빈 현상을 강화하는 동시에 지리적 대표성은 제한적이었습니다.