यह शोधपत्र क्वांटम परिपथों की त्रुटि सहनशीलता में सुधार हेतु सुदृढीकरण अधिगम (RL) तकनीकों का उपयोग करके बड़े पैमाने के भाषा मॉडल (LLM) के फ़ाइन-ट्यूनिंग का अध्ययन करता है। ग्रेनाइट-20B-कोड और स्टारकोडर जैसे मौजूदा LLM द्वारा अक्सर गलत Qiskit कोड उत्पन्न करने की समस्या का समाधान करने के लिए, हमने दो RL विधियों: ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (GRPO) और ऑड्स-रेशियो प्रेफरेंस ऑप्टिमाइज़ेशन (ORPO) का उपयोग करके एक समृद्ध रूप से एनोटेट किए गए सिंथेटिक डेटासेट पर 32B मॉडल को फ़ाइन-ट्यून किया है। Qiskit ह्यूमनएवल बेंचमार्क पर, ORPO ने 56.29% Pass@1 (ग्रेनाइट-8B-QK की तुलना में लगभग 10% सुधार) प्राप्त किया, जबकि GRPO ने 49% प्राप्त किया, जो सभी मौजूदा सामान्य-उद्देश्य बेसलाइन मॉडलों से बेहतर प्रदर्शन करता है। मूल ह्यूमनएवल में, उन्होंने क्रमशः 65.90% और 63.00% अंक प्राप्त किए। जीआरपीओ बुनियादी कार्यों में मजबूत है, जबकि ओआरपीओ मध्यवर्ती कार्यों में मजबूत है, लेकिन यह उन्नत कार्यों को हल करने में विफल रहता है, जो एआई-आधारित क्वांटम प्रोग्रामिंग की क्षमता और सीमाओं दोनों को प्रदर्शित करता है।