इस पत्र में, हम बड़े पैमाने पर भाषा मॉडल (LLM) के आधार पर संवादी एजेंटों की व्यक्तिगत बातचीत को बेहतर बनाने के लिए एक नई विधि प्रस्तुत करते हैं। मौजूदा सुदृढीकरण सीखने-आधारित विधियाँ (RLHF) प्रयोज्यता और सुरक्षा पर ध्यान केंद्रित करती हैं, लेकिन वे सहानुभूतिपूर्ण, अनुकूली और व्यक्तिगत बातचीत उत्पन्न करने में कम पड़ जाती हैं। इस पत्र में, हम एक ऐसी विधि का प्रस्ताव करते हैं जो उपयोगकर्ता मॉडल के आधार पर बहु-दौर RLHF में जिज्ञासा-आधारित आंतरिक पुरस्कारों को एकीकृत करती है। यह LLM एजेंट को उपयोगकर्ता विशेषताओं का सक्रिय रूप से अनुमान लगाने और उपयोगकर्ता मॉडल की सटीकता में सुधार करने के लिए बातचीत को अनुकूलित करने की अनुमति देता है, जिससे अधिक व्यक्तिगत बातचीत प्रदान की जाती है। संवादी अनुशंसा और प्रशिक्षण वातावरण में प्रयोगों के माध्यम से, हम बातचीत की गुणवत्ता को बनाए रखते हुए मौजूदा RLHF की तुलना में बेहतर वैयक्तिकरण और सामान्यीकरण प्रदर्शन प्रदर्शित करते हैं।