Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

Created by
  • Haebom

저자

Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan

개요

본 논문은 소프트웨어 엔지니어링 분야의 기초 모델 학습 및 평가에 필수적인 고품질 라벨링 데이터셋 생성의 어려움을 해결하기 위해, 자동화된 라벨링 파이프라인 SPICE를 제안한다. SPICE는 컨텍스트 인식 코드 탐색, 근거 기반 프롬프팅, 다중 통과 합의를 결합하여 전문가 수준의 어노테이션에 가까운 라벨을 생성한다. 800개 이상의 SWE-Gym 인스턴스 라벨링 경험을 바탕으로 설계되었으며, SWE-bench Verified 데이터와의 높은 일치율을 보이며, 1,000개 인스턴스 라벨링 비용을 약 10만 달러에서 5.10달러로 획기적으로 절감한다. 또한, SPICE 도구와 함께 SWE-Gym의 291개 오픈소스 프로젝트에서 얻은 6,802개의 SPICE 라벨링 인스턴스로 구성된 새로운 데이터셋인 SPICE Bench를 공개한다.

시사점, 한계점

시사점:
소프트웨어 엔지니어링 분야 기초 모델 학습을 위한 고품질 데이터셋 생성 비용을 획기적으로 절감할 수 있다.
대규모 데이터셋 생성을 통해 기초 모델의 성능 향상에 기여할 수 있다.
SPICE 도구 및 SPICE Bench 데이터셋 공개를 통해 연구 커뮤니티에 기여한다.
한계점:
SPICE의 성능은 사용된 프롬프트 및 모델의 질에 의존적일 수 있다.
현재는 특정 유형의 어노테이션 (이슈 명확성, 테스트 적용범위, 작업량 추정)에만 집중되어 있다. 다른 유형의 어노테이션에 대한 확장성이 필요하다.
SWE-Gym 데이터셋에 기반한 것이므로, 다른 데이터셋으로의 일반화 성능 검증이 필요하다.
👍