दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रशिक्षण के बाद क्विस्किट कोड सहायक के लिए क्वांटम सत्यापन योग्य पुरस्कार

Created by
  • Haebom

लेखक

निकोलस डुपुइस, आदर्श तिवारी, यूसुफ मरौएह, डेविड क्रेमर, इस्माइल फ़ारो, जुआन क्रूज़-बेनिटो

रूपरेखा

यह शोधपत्र Qiskit का उपयोग करके क्वांटम सर्किट डिज़ाइन, सिमुलेशन और निष्पादन में सहायता के लिए बड़े पैमाने के भाषा मॉडल (LLM) के लिए प्रशिक्षण-पश्चात तकनीकों का अन्वेषण करता है। हम क्वांटम हार्डवेयर पर क्वांटम कोड की गुणवत्ता और उसकी निष्पादनीयता सुनिश्चित करने के लिए क्वांटम सत्यापन को एक प्रभावी विधि के रूप में प्रस्तुत करते हैं। हम एक सिंथेटिक डेटा पाइपलाइन विकसित करते हैं जो क्वांटम समस्या-इकाई परीक्षण युग्म उत्पन्न करती है, प्रत्यक्ष वरीयता अनुकूलन (DPO) के लिए वरीयता डेटा उत्पन्न करती है, और क्वांटम हार्डवेयर द्वारा प्रदान किए गए क्वांटम-सत्यापनीय पुरस्कारों का लाभ उठाते हुए, निर्देशित पुरस्कार वरीयता अनुकूलन (GRPO) का उपयोग करके मॉडलों को प्रशिक्षित करती है। DPO और GRPO को मिलाकर सबसे अच्छा प्रदर्शन करने वाला मॉडल, Qiskit-HumanEval-हार्ड बेंचमार्क पर सबसे शक्तिशाली ओपन-सोर्स बेसलाइन मॉडल से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
एलएलएम का उपयोग करके क्वांटम प्रोग्रामिंग समर्थन की क्षमता का प्रदर्शन करना।
क्वांटम सत्यापन के माध्यम से कोड की गुणवत्ता में सुधार और निष्पादन योग्य प्रदर्शन सुनिश्चित करना।
डीपीओ और जीआरपीओ के संयोजन के माध्यम से प्रदर्शन में सुधार।
Qiskit-HumanEval-hard बेंचमार्क पर उत्कृष्ट प्रदर्शन हासिल किया।
Limitations:
सिंथेटिक डेटा पाइपलाइनों पर निर्भर डेटा उत्पादन विधियों की सीमाएँ।
वास्तविक क्वांटम हार्डवेयर की बाधाएं और पहुंच संबंधी मुद्दे।
एक विशिष्ट क्वांटम प्रोग्रामिंग फ्रेमवर्क (क्यूस्किट) पर निर्भरता।
क्यूस्किट-ह्यूमनइवल-हार्ड बेंचमार्क से परे सामान्यीकरण प्रदर्शन के सत्यापन का अभाव।
👍