본 논문은 GPT, Claude, Gemini, DeepSeek 등 인기있는 대규모 언어 모델(LLM)들을 사용하여 웹 애플리케이션인 메시지 관리 시스템의 기능 명세서(use cases, business rules, collaborative workflows 포함)를 생성하는 성능을 비교 분석한 사례 연구이다. 각 LLM이 생성한 명세서의 구문 및 의미 정확성, 일관성, 모호성, 완성도를 기준으로 평가하였으며, 제로샷 프롬프트를 사용하여 참조 명세서와 비교 분석하였다. 결과적으로 모든 LLM이 구문 및 의미적으로 정확하고 대부분 모호하지 않은 산출물을 생성했지만, 일관성이 부족하거나 완성도에 차이를 보였다. Claude와 Gemini는 모든 참조 use cases를 생성하였고, Claude는 가장 완성도가 높았으나 다소 중복되는 부분이 있었다. Workflow 생성에서도 유사한 결과를 보였다. 하지만 모든 LLM은 Business Rules 생성에 어려움을 겪었으며, DeepSeek이 가장 많은 참조 규칙을 생성했지만 완성도는 낮았다. 전반적으로 Claude는 더 완성도 높은 명세서 산출물을 생성했고, Gemini는 더 정확한 명세서를 생성했다.