यह पत्र पेनीलैंग प्रस्तुत करता है, जो कि पेनीलेन को समर्पित एक उच्च-गुणवत्ता वाला डेटासेट है, जो उच्च-गुणवत्ता वाले डेटासेट की कमी को दूर करता है जो क्वांटम सॉफ्टवेयर विकास में बड़े पैमाने पर भाषा मॉडल (एलएलएम) के उपयोग को सीमित करता है। पेनीलैंग में पाठ्यपुस्तकों, आधिकारिक दस्तावेजों और ओपन-सोर्स रिपॉजिटरी से एकत्र किए गए 3,347 पेनीलेन क्वांटम कोड नमूने और प्रासंगिक विवरण शामिल हैं। यह पत्र तीन योगदान प्रस्तुत करता है: पेनीलैंग का निर्माण और रिलीज, एक स्वचालित क्वांटम कोड डेटासेट निर्माण ढांचा, और पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) पाइपलाइन के भीतर कई ओपन-सोर्स मॉडल का उपयोग करके आधारभूत मूल्यांकन। प्रायोगिक परिणाम दर्शाते हैं कि आरएजी और पेनीलैंग के संयोजन से क्वेन 7बी और एललामा 4 मॉडल के प्रदर्शन में उल्लेखनीय सुधार होता