본 연구는 대규모 언어 모델(LLM)이 문헌 검토 및 참고 자료 추천과 같은 연구 지원 도구로 빠르게 채택되고 있음에도 불구하고, 이러한 모델이 인용 과정에 인구 통계적 편향을 도입하는지에 대한 이해가 부족하다는 점을 지적합니다. 본 연구는 가명의 저자 이름을 사용한 통제 실험을 통해 LLM 기반 참고 자료 선택에서의 성별 편향을 체계적으로 조사합니다. GPT-4o, GPT-4o-mini, Claude Sonnet, Claude Haiku 등 여러 LLM을 평가하여 후보 참고 자료 풀 내의 성별 구성을 변화시키고, 다양한 분야에서의 선택 패턴을 분석했습니다. 그 결과, 남성 저자의 참고 자료를 지속적으로 선호하는 편향과 후보 풀에서 더 많이 나타나는 성별을 선호하는 다수 집단 편향이라는 두 가지 형태의 편향을 발견했습니다. 이러한 편향은 더 큰 후보 풀에서 더욱 심화되며, 프롬프트 기반 완화 전략으로는 미미하게 완화될 뿐입니다. 분야별 분석 결과, 편향의 정도는 과학 분야에 따라 다르며, 사회 과학 분야에서 편향이 가장 적게 나타나는 것으로 나타났습니다. 본 연구의 결과는 LLM이 학문적 인정에서 기존의 성 불균형을 강화하거나 악화시킬 수 있음을 시사합니다. LLM을 중요한 학문적 업무에 통합하기 전에 기존의 성 불평등을 영속화하지 않도록 효과적인 완화 전략이 필요합니다.