Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SQuaD: The Software Quality Dataset

Created by
  • Haebom
Category
Empty

저자

Mikel Robredo, Matteo Esposito, Davide Taibi, Rafael Penaloza, Valentina Lenarduzzi

개요

본 논문은 소프트웨어 품질 연구에 사용될 수 있는 대규모 데이터셋인 SQuaD(Software Quality Dataset)를 소개한다. SQuaD는 Apache, Mozilla, FFmpeg, Linux kernel 등 다양한 생태계의 450개 성숙된 오픈소스 프로젝트에서 추출된 시계열, 다차원 소프트웨어 품질 지표를 포함한다. SonarQube, CodeScene, PMD, Understand, CK, JaSoMe, RefactoringMiner, RefactoringMiner++, PyRef 등 9개의 정적 분석 도구를 통합하여 메서드, 클래스, 파일 및 프로젝트 수준에서 700개 이상의 고유 지표를 제공한다. 총 63,586개의 프로젝트 릴리스를 다루며, 버전 관리, 이슈 추적 기록, 소프트웨어 취약성 데이터 (CVE/CWE) 및 JIT (Just-In-Time) 결함 예측을 향상시키는 프로세스 지표도 제공한다. SQuaD는 유지 보수성, 기술 부채, 소프트웨어 진화 및 품질 평가에 대한 실증적 연구를 가능하게 하며, 자동화된 데이터셋 업데이트 및 교차 프로젝트 품질 모델링과 같은 연구 방향을 제시한다. 데이터셋은 ZENODO (DOI: 10.5281/zenodo.17566690)에서 공개적으로 이용 가능하다.

시사점, 한계점

시사점:
다양한 생태계와 프로젝트에서 추출된 대규모, 다차원 소프트웨어 품질 데이터셋 제공
유지보수성, 기술 부채, 소프트웨어 진화, 품질 평가 연구를 위한 풍부한 데이터 제공
JIT 결함 예측을 위한 프로세스 지표 및 취약성 데이터 (CVE/CWE) 제공
다양한 정적 분석 도구 통합으로 광범위한 지표 제공
자동화된 데이터셋 업데이트 및 교차 프로젝트 품질 모델링 연구 방향 제시
공개 데이터셋으로 연구 접근성 향상
한계점:
데이터셋의 정확성과 완벽성은 사용된 정적 분석 도구에 의존.
데이터셋의 특정 기능(예: 취약성 데이터)의 정확성은 데이터 소스에 의해 제한될 수 있음.
데이터셋은 오픈소스 프로젝트에 국한되어 있어, 독점적인 프로젝트에 대한 적용은 어려움.
데이터셋을 활용하기 위한 분석 및 처리 능력이 필요.
👍