본 논문은 미국 국립 보건원의 자료를 인용하여 340만 명 이상의 어린이들이 임상적 개입이 필요한 언어 장애를 겪고 있지만, 언어 치료사의 수가 턱없이 부족하여 기술적 지원의 필요성을 강조한다. 이에 따라 언어 모델(MLM)의 활용 가능성을 탐구하고, 실제 임상 환경에서의 성능을 평가하기 위한 포괄적인 벤치마크를 개발했다. 이 벤치마크는 5가지 핵심 사용 사례를 포함하며, 다양한 환경에서의 견고성과 민감도 테스트를 포함한다. 15개의 최신 MLM을 평가한 결과, 특정 모델이 모든 작업에서 일관되게 우수한 성능을 보이지 않았으며, 남성 화자에 대한 편향과 사고 사슬 프롬프트의 성능 저하를 발견했다. 또한, 특정 도메인 데이터에 대한 미세 조정을 통해 10% 이상의 성능 향상을 달성했다. 이러한 연구 결과는 현재 MLM의 잠재력과 한계를 보여주며, 언어 장애 치료 분야에서의 추가 연구 및 개발의 필요성을 강조한다.