मौजूदा व्याख्या योग्य अनुशंसा प्रणालियों की कमियों को दूर करने के लिए, यह शोधपत्र मानव-सदृश प्रतिक्रिया पर आधारित एक गतिशील अंतःक्रिया अनुकूलन ढाँचा प्रस्तावित करता है। यह ढाँचा मानव प्रतिक्रिया का पूर्वानुमान लगाने के लिए एक बड़े पैमाने के भाषा मॉडल (LLM) को मानव सिम्युलेटर के रूप में उपयोग करता है और उपयोगकर्ता-अनुकूलित पुरस्कार स्कोरिंग पद्धति के माध्यम से LLM की भाषा समझ और तार्किक तर्क क्षमताओं को बढ़ाता है। इसके अलावा, विभिन्न दृष्टिकोणों से व्याख्या की गुणवत्ता के बीच संतुलन बनाने के लिए परेटो अनुकूलन का परिचय दिया गया है, और कुशल मॉडल अधिगम प्राप्त करने के लिए एक ऑफ-पॉलिसी अनुकूलन पाइपलाइन का उपयोग किया गया है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि मौजूदा विधियों से बेहतर प्रदर्शन करती है।