यह शोधपत्र Qiskit का उपयोग करके क्वांटम सर्किट डिज़ाइन, सिमुलेशन और निष्पादन में सहायता के लिए बड़े पैमाने के भाषा मॉडल (LLM) के लिए प्रशिक्षण-पश्चात तकनीकों का अन्वेषण करता है। हम क्वांटम हार्डवेयर पर क्वांटम कोड की गुणवत्ता और उसकी निष्पादनीयता सुनिश्चित करने के लिए क्वांटम सत्यापन को एक प्रभावी विधि के रूप में प्रस्तुत करते हैं। हम एक सिंथेटिक डेटा पाइपलाइन विकसित करते हैं जो क्वांटम समस्या-इकाई परीक्षण युग्म उत्पन्न करती है, प्रत्यक्ष वरीयता अनुकूलन (DPO) के लिए वरीयता डेटा उत्पन्न करती है, और क्वांटम हार्डवेयर द्वारा प्रदान किए गए क्वांटम-सत्यापनीय पुरस्कारों का लाभ उठाते हुए, निर्देशित पुरस्कार वरीयता अनुकूलन (GRPO) का उपयोग करके मॉडलों को प्रशिक्षित करती है। DPO और GRPO को मिलाकर सबसे अच्छा प्रदर्शन करने वाला मॉडल, Qiskit-HumanEval-हार्ड बेंचमार्क पर सबसे शक्तिशाली ओपन-सोर्स बेसलाइन मॉडल से बेहतर प्रदर्शन करता है।