본 논문은 소프트웨어 엔지니어링 분야의 기초 모델 학습 및 평가에 필수적인 고품질 라벨링 데이터셋 생성의 어려움을 해결하기 위해, 자동화된 라벨링 파이프라인 SPICE를 제안한다. SPICE는 컨텍스트 인식 코드 탐색, 근거 기반 프롬프팅, 다중 통과 합의를 결합하여 전문가 수준의 어노테이션에 가까운 라벨을 생성한다. 800개 이상의 SWE-Gym 인스턴스 라벨링 경험을 바탕으로 설계되었으며, SWE-bench Verified 데이터와의 높은 일치율을 보이며, 1,000개 인스턴스 라벨링 비용을 약 10만 달러에서 5.10달러로 획기적으로 절감한다. 또한, SPICE 도구와 함께 SWE-Gym의 291개 오픈소스 프로젝트에서 얻은 6,802개의 SPICE 라벨링 인스턴스로 구성된 새로운 데이터셋인 SPICE Bench를 공개한다.