본 논문은 의학 교육 자료 내 부적절한 언어 사용(IUL)을 자동으로 식별하기 위한 소형 언어 모델(SLM)과 사전 훈련된 대형 언어 모델(LLM)의 성능을 평가한 연구입니다. 약 500개 문서(12,000페이지 이상)의 데이터셋을 사용하여, IUL 일반 분류기, 하위 범주별 이진 분류기, 다중 레이블 분류기, 그리고 계층적 파이프라인 등 다양한 SLM 모델과, 몇 가지 프롬프트 변형을 적용한 LLM(Llama-3 8B 및 70B)을 비교 분석했습니다. 그 결과, 신중하게 구성된 샷(shot)을 사용한 LLM보다 SLM의 성능이 훨씬 우수했으며, 특히 부적절한 언어 사용 사례가 없는 부분을 음성 예시로 추가 훈련한 하위 범주별 이진 분류기가 가장 효과적인 것으로 나타났습니다.