Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

Created by
  • Haebom

저자

Aaditya Bhatia, Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan

개요

SPICE는 소프트웨어 엔지니어링 분야의 기초 모델 학습 및 평가에 필수적인 고품질 레이블 데이터셋을 효율적으로 생성하는 자동화 파이프라인입니다. 문제 명확성, 테스트 적용 범위, 노력 추정에 대한 주석을 SWE-bench 스타일 데이터셋에 부착하며, 문맥 인식 코드 탐색, 근거 기반 프롬프트, 다중 통과 합의를 결합하여 전문가 주석에 가까운 레이블을 생성합니다. 800개 이상의 SWE-Gym 인스턴스 레이블링 경험을 바탕으로 설계되었으며, 1,000개 인스턴스 레이블링 비용을 수동 주석의 약 $100,000에서 $5.10으로 획기적으로 절감합니다. SWE-Gym의 291개 오픈소스 프로젝트에서 얻은 6,802개 인스턴스의 새로운 데이터셋인 SPICE Bench를 공개하며, 이는 SWE-bench Verified보다 13배 이상 규모가 큽니다.

시사점, 한계점

시사점:
소프트웨어 엔지니어링 기초 모델 학습을 위한 고품질 레이블 데이터셋 생성 비용을 획기적으로 절감할 수 있습니다.
대규모 데이터셋 생성을 가능하게 하여 기초 모델의 성능 향상에 기여할 수 있습니다.
SPICE 도구와 SPICE Bench 데이터셋을 공개하여 연구 커뮤니티에 기여합니다.
한계점:
SPICE의 성능은 SWE-Gym 데이터셋에 의존적일 수 있으며, 다른 유형의 데이터셋에 대한 일반화 성능은 추가 연구가 필요합니다.
전문가 수준의 주석과의 완벽한 일치는 어려울 수 있으며, 레이블링 정확도에 대한 추가적인 검증이 필요합니다.
특정 프로그래밍 언어나 프로젝트 유형에 편향될 가능성이 있습니다.
👍