इस शोधपत्र में, हम बड़े पैमाने के भाषा मॉडल (LLM) को मानवीय प्राथमिकताओं के अनुसार फिट करने के लिए एक नई विधि, इटेरेटिव रीवेट-दैन-ऑप्टिमाइज़ (IRO) प्रस्तुत करते हैं। पारंपरिक RLHF या DPO के विपरीत, यह सीधे मॉडल मापदंडों को संशोधित नहीं करता है, लेकिन सुदृढीकरण सीखने-आधारित पुरस्कार फ़ंक्शन का उपयोग करके परीक्षण के समय मॉडल आउटपुट की गुणवत्ता में सुधार करता है। IRO एक बेस मॉडल के आउटपुट उम्मीदवारों को पुनरावृत्त रूप से उत्पन्न करता है, उन्हें एक मूल्य फ़ंक्शन का उपयोग करके फिर से नमूना करता है, और एक नया मूल्य फ़ंक्शन सीखता है। परीक्षण के समय, सीखे गए मूल्य फ़ंक्शन का उपयोग अन्वेषण-आधारित अनुकूलन प्रक्रिया के माध्यम से बेस मॉडल की पीढ़ी को निर्देशित करने के लिए किया जाता है। यह उपयोगकर्ताओं को अपने स्वयं के डेटासेट में मॉडल फिट करने की अनुमति देता है, भले ही उनके पास मॉडल वज़न तक पहुँच न हो।