본 연구는 의료 분야 챗봇의 성능 저하 원인을 파악하기 위해, 환자 인구 통계, 병력, 질병, 글쓰기 스타일 등을 활용하여 현실적인 질문을 생성하고, 여러 LLM을 '판사'로 사용하여 답변을 평가하는 인프라를 개발했습니다. 연구 결과, LLM 간의 평가 일치도가 낮고, 특정 LLM 쌍에서만 유의미한 차이가 나타났습니다. 특히, 지면 진실 데이터가 없는 경우 LLM 평가에 여러 LLM을 사용하고, 상호 LLM 간 일치도 지표를 공개할 것을 권장합니다.