본 논문은 의학 문헌에 사용되는 대규모 언어 모델(LLM)의 성별 편향을 완화하기 위한 파이프라인을 제시합니다. 1965년부터 1980년까지의 PubMed 초록 379,000개를 사용하여 직업과 관련된 대명사를 식별하고 수정하는 방식으로 진행되었습니다. 연구진은 수정된 초록으로 훈련된 BERT 기반 모델인 "MOBERT"를 개발하여 원본 데이터셋으로 훈련된 "1965BERT"와 성능을 비교했습니다. MOBERT는 70%의 포괄적인 대체율을 달성한 반면, 1965BERT는 4%에 그쳤습니다. MOBERT 분석 결과, 대명사 대체 정확도는 훈련 데이터에서 직업 용어의 빈도와 상관관계가 있는 것으로 나타났습니다. 향후 데이터 확장 및 파이프라인 개선을 통해 의학 분야 응용 프로그램에서 더욱 공정한 언어 모델링을 보장할 것을 제안합니다.