Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Software Development Life Cycle Perspective: A Survey of Benchmarks for CodeLLMs and Agents

Created by
  • Haebom

저자

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Bin Shi

개요

본 논문은 CodeLLMs(Code Large Language Models)와 에이전트의 성능 평가를 위한 벤치마크에 대한 종합적인 검토를 제공합니다. 461편의 관련 논문에서 발췌한 181개의 벤치마크를 분석하여 소프트웨어 개발 생명주기(SDLC)의 다양한 단계를 살펴봅니다. 분석 결과, 현재 벤치마크의 약 60%가 소프트웨어 개발 단계에 집중되어 있으며, 요구사항 공학 및 소프트웨어 설계 단계는 각각 5%와 3%로 매우 적은 비중을 차지하고 있음을 밝힙니다. 또한, Python이 검토된 벤치마크에서 가장 많이 사용되는 프로그래밍 언어임을 확인했습니다. 마지막으로, 현재 연구의 과제를 강조하고 CodeLLMs와 에이전트의 이론적 역량과 실제 시나리오 적용 간의 격차를 줄이기 위한 미래 방향을 제시합니다.

시사점, 한계점

시사점: CodeLLMs 및 에이전트 벤치마크에 대한 종합적인 분석을 통해 SDLC 단계별 벤치마크의 불균형을 밝히고, 향후 연구 방향을 제시함으로써 CodeLLMs 및 에이전트의 실제 적용 가능성을 높이는 데 기여합니다. Python이 주요 언어로 사용됨을 확인하여 향후 연구 및 개발 방향 설정에 도움을 줍니다.
한계점: 현재 벤치마크들이 소프트웨어 개발 단계에 편중되어 있고, 요구사항 공학 및 소프트웨어 설계 단계에 대한 벤치마크가 부족하다는 점입니다. 이는 CodeLLMs 및 에이전트의 전 생명주기적 평가에 대한 한계를 시사합니다. 또한, 분석 대상이 된 벤치마크의 품질과 다양성에 따라 결과의 일반화 가능성에 제한이 있을 수 있습니다.
👍