본 논문은 불임과 같이 복잡하고 민감한 의료 분야에서 효과적인 의사-환자 소통을 자동화하기 위해 대규모 언어 모델(LLM)의 활용 가능성을 평가한 연구이다. ChatGPT-4o와 ChatGPT-4o-mini를 이용하여 70건의 실제 불임 사례에 대한 대화형 시스템을 구축하고, F1 점수, 감별 진단 정확도, 불임 유형 판단 정확도를 측정하여 성능을 평가하였다. 그 결과, ChatGPT-4o-mini가 정보 추출 정확도와 의료 기록 완성도 측면에서 ChatGPT-4o보다 우수한 성능을 보였지만, ChatGPT-4o는 감별 진단 정확도가 다소 높았다. 두 모델 모두 불임 병력 청취 자동화에 대한 높은 가능성을 보여주었다.