Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM assisted web application functional requirements generation: A case study of four popular LLMs over a Mess Management System

Created by
  • Haebom

저자

Rashmi Gupta, Aditya K Gupta, Aarav Jain, Avinash C Pandey, Atul Gupta

개요

본 논문은 GPT, Claude, Gemini, DeepSeek 등 인기있는 대규모 언어 모델(LLM)들을 사용하여 웹 애플리케이션인 메시지 관리 시스템의 기능 명세서(use cases, business rules, collaborative workflows 포함)를 생성하는 성능을 비교 분석한 사례 연구이다. 각 LLM이 생성한 명세서의 구문 및 의미 정확성, 일관성, 모호성, 완성도를 기준으로 평가하였으며, 제로샷 프롬프트를 사용하여 참조 명세서와 비교 분석하였다. 결과적으로 모든 LLM이 구문 및 의미적으로 정확하고 대부분 모호하지 않은 산출물을 생성했지만, 일관성이 부족하거나 완성도에 차이를 보였다. Claude와 Gemini는 모든 참조 use cases를 생성하였고, Claude는 가장 완성도가 높았으나 다소 중복되는 부분이 있었다. Workflow 생성에서도 유사한 결과를 보였다. 하지만 모든 LLM은 Business Rules 생성에 어려움을 겪었으며, DeepSeek이 가장 많은 참조 규칙을 생성했지만 완성도는 낮았다. 전반적으로 Claude는 더 완성도 높은 명세서 산출물을 생성했고, Gemini는 더 정확한 명세서를 생성했다.

시사점, 한계점

시사점:
다양한 LLM이 소프트웨어 개발 초기 단계의 기능 명세서 자동 생성에 활용될 수 있음을 보여줌.
LLM별 성능 차이가 존재하며, 특정 LLM이 특정 작업에 더 적합할 수 있음을 시사함 (예: Claude의 완성도, Gemini의 정확성).
LLM을 활용한 자동화를 통해 개발 초기 단계의 생산성을 향상시킬 가능성 제시.
한계점:
Business Rules 생성에 대한 LLM의 성능이 상대적으로 저조하여 추가적인 연구가 필요함.
제로샷 프롬프트 기반 평가의 한계로, 좀 더 정교한 프롬프트 엔지니어링 기법을 활용한 추가 연구가 필요함.
평가 지표의 제한으로 인해, LLM 성능에 대한 더 포괄적인 이해가 필요함.
연구 대상이 하나의 웹 애플리케이션에 국한되어 일반화 가능성에 대한 추가 검증 필요.
LLM이 생성한 명세서의 완성도 및 일관성 향상을 위한 추가적인 연구가 필요함.
👍