दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SPICE: समस्या स्पष्टता, परीक्षण कवरेज और प्रयास अनुमान के लिए एक स्वचालित SWE-बेंच लेबलिंग पाइपलाइन

Created by
  • Haebom

लेखक

गुस्तावो ए. ओलिवा, गोपी कृष्णन राजबहादुर, आदित्य भाटिया, हाओक्सियांग झांग, यिहाओ चेन, ज़िलॉन्ग चेन, आर्थर लेउंग, दया लिन, बोयुआन चेन, अहमद ई. हसन

रूपरेखा

SPICE एक स्केलेबल, स्वचालित पाइपलाइन है जो उच्च-गुणवत्ता वाले लेबल वाले डेटासेट उत्पन्न करती है, जो सॉफ़्टवेयर इंजीनियरिंग में मूलभूत मॉडलों के अध्ययन और मूल्यांकन के लिए आवश्यक हैं। यह SWE-बेंच-शैली के डेटासेट को समस्या स्पष्टता, परीक्षण कवरेज और प्रयास अनुमान के साथ स्वचालित रूप से एनोटेट करता है। यह संदर्भ-जागरूक कोड अन्वेषण, साक्ष्य-आधारित संकेत और बहु-पास सहमति को मिलाकर ऐसे लेबल तैयार करता है जो विशेषज्ञ एनोटेशन से काफी मिलते-जुलते हैं। यह 800 से अधिक SWE-Gym इंस्टेंस को लेबल करने के अनुभव पर आधारित है और मानव-लेबल वाले SWE-बेंच सत्यापित डेटा के साथ उच्च सहमति प्राप्त करता है। यह 1,000 इंस्टेंस को लेबल करने की लागत को नाटकीय रूप से कम करता है, जो मैन्युअल एनोटेशन के लिए लगभग $100,000 से घटकर $5.10 हो जाती है। हम SPICE बेंच भी जारी करते हैं, जो SWE-Gym में 291 ओपन-सोर्स परियोजनाओं के 6,802 SPICE-लेबल वाले इंस्टेंस से युक्त एक नया डेटासेट है।

Takeaways, Limitations

Takeaways:
सॉफ्टवेयर इंजीनियरिंग के आधारभूत मॉडलों के प्रशिक्षण के लिए बड़े, उच्च गुणवत्ता वाले डेटासेट के निर्माण की लागत को महत्वपूर्ण रूप से कम करना।
SPICE उपकरणों और SPICE बेंच डेटासेट के माध्यम से अनुसंधान समुदाय में योगदान करें (SWE-बेंच सत्यापित से 13 गुना अधिक बड़ा डेटासेट प्रदान करना)।
हमारी स्वचालित लेबलिंग पाइपलाइन के साथ विशेषज्ञ स्तर की सटीकता प्राप्त करें।
Limitations:
SPICE का प्रदर्शन प्रयुक्त कोडबेस की विशेषताओं के आधार पर भिन्न हो सकता है।
वर्तमान में समर्थित एनोटेशन प्रकार सीमित हो सकते हैं (समस्या स्पष्टता, परीक्षण कवरेज, प्रयास अनुमान)।
चूंकि यह पूर्णतः स्वचालित प्रणाली नहीं है, इसलिए कुछ मैन्युअल सत्यापन या समायोजन की आवश्यकता हो सकती है (उदाहरण के लिए, बहु-पास सहमति प्रक्रिया)।
👍