दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पर्सोनाबेंच: (सिंथेटिक) निजी उपयोगकर्ता डेटा तक पहुँच के माध्यम से व्यक्तिगत जानकारी को समझने पर एआई मॉडल का मूल्यांकन

Created by
  • Haebom

लेखक

जुंताओ टैन, लियांगवेई यांग, ज़क्सिन लियू, झिवेई लियू, रितेश मूर्ति, तूलिका मनोज अवलगांवकर, जियानगुओ झांग, वीरान याओ, मिंग झू, शर्ली कोकेन, सिल्वियो सावरेसे, हुआन वांग, कैमिंग जिओंग, शेल्बी हेनेके

रूपरेखा

यह पत्र व्यक्तिगत एआई सहायकों, विशेष रूप से निजी एआई मॉडल जो निजी उपयोगकर्ता डेटा का लाभ उठाते हैं, के संदर्भ में निजीकरण के महत्व पर प्रकाश डालता है। हम उपयोगकर्ताओं की निजी जानकारी (जैसे, जीवनी संबंधी जानकारी, प्राथमिकताएं, सामाजिक संबंध, आदि) को समझने के लिए उपयोगकर्ताओं के निजी डेटा (जैसे, वार्तालाप इतिहास, उपयोगकर्ता-एआई इंटरैक्शन, ऐप उपयोग इतिहास) तक पहुँचने और उसकी व्याख्या करने हेतु एआई मॉडल की क्षमता के मूल्यांकन पर ध्यान केंद्रित करते हैं। इन आंकड़ों की संवेदनशील प्रकृति के कारण सार्वजनिक रूप से उपलब्ध डेटासेट की सीमित उपलब्धता को स्वीकार करते हुए, हम एक सिंथेटिक डेटा जनरेशन पाइपलाइन प्रस्तुत करते हैं जो ऐसे निजी दस्तावेज़ तैयार करती है जो विविध और यथार्थवादी उपयोगकर्ता प्रोफाइल और व्यक्तिगत गतिविधियों का अनुकरण करते हैं। इसके आधार पर, हम एक बेंचमार्क, पर्सोनाबेंच, प्रस्तावित करते हैं, ताकि नकली निजी उपयोगकर्ता डेटा से निकाली गई निजी जानकारी को समझने वाले एआई मॉडल के प्रदर्शन का मूल्यांकन किया जा सके। रिट्रीवल-ऑगमेंटेड जेनरेशन (आरएजी) पाइपलाइन का उपयोग करके, हम उन एआई मॉडल के प्रदर्शन का मूल्यांकन करते हैं जो नकली निजी उपयोगकर्ता डेटा से निकाली गई निजी जानकारी को समझते हैं। हमारे परिणामों से पता चलता है कि वर्तमान आरएजी-आधारित एआई मॉडल उपयोगकर्ता के दस्तावेजों से व्यक्तिगत जानकारी निकालने और निजी प्रश्नों का उत्तर देने में संघर्ष करते हैं, जिससे एआई की निजीकरण क्षमताओं को बढ़ाने के लिए बेहतर कार्यप्रणाली की आवश्यकता पर प्रकाश पड़ता है।

____T43722_____, ____T43723_____

Takeaways: हम निजी व्यक्तिगत डेटा का उपयोग करने वाले AI मॉडलों की निजीकरण क्षमताओं के मूल्यांकन के लिए एक नया मानक (PersonaBench) प्रस्तुत करते हैं। वर्तमान RAG-आधारित AI मॉडलों की व्यक्तिगत जानकारी को समझने की क्षमता की सीमाओं का खुलासा करके, हम भविष्य के अनुसंधान की दिशाएँ सुझाते हैं। हम एक सिंथेटिक डेटा जनरेशन पाइपलाइन के माध्यम से गोपनीयता संबंधी चिंताओं का समाधान करते हुए वास्तविक डेटा के समान डेटा उत्पन्न करने की एक विधि भी प्रस्तुत करते हैं।
Limitations: पर्सोनाबेंच सिंथेटिक डेटा पर आधारित है, इसलिए यह वास्तविक उपयोगकर्ता डेटा पर आधारित मूल्यांकनों से भिन्न हो सकता है। यह मूल्यांकन RAG पाइपलाइन तक सीमित है, इसलिए अन्य प्रकार के AI मॉडलों के मूल्यांकन के लिए और अधिक शोध की आवश्यकता है। यह व्यक्तिगत जानकारी की विविधता और जटिलता को पूरी तरह से प्रतिबिंबित नहीं कर सकता है।
👍