यह शोधपत्र आर-ज़ीरो, एक स्व-विकसित वृहद भाषा मॉडल (एलएलएम) का प्रस्ताव करता है जो बिना किसी मानवीय हस्तक्षेप के स्वायत्त रूप से सीखता और सुधारता है। मौजूदा स्व-विकसित एलएलएम, जो मानव-जनित डेटा की विशाल मात्रा पर निर्भर करते हैं, के विपरीत, आर-ज़ीरो दो स्वतंत्र मॉडलों: एक चैलेंजर और एक सॉल्वर, का उपयोग करके अपना स्वयं का प्रशिक्षण डेटा उत्पन्न करता है। चैलेंजर, सॉल्वर की क्षमताओं के निकट कार्य प्रस्तुत करता है, और सॉल्वर उन्हें हल करके मॉडल के साथ अंतःक्रिया करता है। यह प्रक्रिया पूर्वनिर्धारित कार्यों या लेबलों के बिना एक लक्ष्य-उन्मुख, स्व-सुधार पाठ्यक्रम तैयार करती है। प्रायोगिक परिणाम दर्शाते हैं कि आर-ज़ीरो विभिन्न बुनियादी एलएलएम की तर्क क्षमता में सुधार करता है।