दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आइजेनबेंच: मूल्य संरेखण का एक तुलनात्मक व्यवहारिक माप

Created by
  • Haebom

लेखक

जोनाथन चांग, ​​लिओनहार्ड पिफ, सुवादीप सना, जैस्मीन X। ली, लियोनेल लेविन

रूपरेखा

आइजेनबेंच, कृत्रिम बुद्धिमत्ता में मूल्य संरेखण समस्या के समाधान हेतु एक नवीन बेंचमार्किंग पद्धति है। मौजूदा मात्रात्मक मापकों की कमी को दूर करने के लिए, यह एक ब्लैक-बॉक्स दृष्टिकोण प्रस्तावित करता है जो विभिन्न भाषा मॉडलों में मूल्य संरेखण के स्तर का तुलनात्मक मूल्यांकन करता है। यह मॉडलों के एक समूह, मूल्य प्रणाली का वर्णन करने वाली एक संरचना, और एक परिदृश्य डेटासेट को इनपुट के रूप में लेता है, और प्रत्येक मॉडल के दिए गए समूह के साथ संरेखण को परिमाणित करने वाला एक वेक्टर स्कोर आउटपुट करता है। प्रत्येक मॉडल विभिन्न परिदृश्यों में अन्य मॉडलों के आउटपुट का मूल्यांकन करता है, और आइजेनट्रस्ट एल्गोरिथम इन मूल्यांकनों को एकत्रित करके एक ऐसा स्कोर उत्पन्न करता है जो संपूर्ण समूह के भारित औसत निर्णय को दर्शाता है। इसे उन विशेषताओं का परिमाणीकरण करने के लिए डिज़ाइन किया गया है जो तर्कसंगत निर्णायकों के बीच भी भिन्न हो सकती हैं, बिना सही-उत्तर लेबल पर निर्भर हुए। मॉडलों या संकेतों के प्रति आइजेनबेंच स्कोर की संवेदनशीलता का परीक्षण करने के लिए संकेत व्यक्तित्वों का उपयोग करने वाले प्रयोगों से पता चला कि जहाँ अधिकांश विचरण संकेतों द्वारा समझाया जाता है, वहीं छोटे अवशेष स्वयं मॉडलों के अंतर्निहित पूर्वाग्रहों को परिमाणित करते हैं।

Takeaways, Limitations

Takeaways:
एआई मूल्यों के संरेखण को मात्रात्मक रूप से मापने के लिए एक नई विधि।
ब्लैक-बॉक्स दृष्टिकोण को अपनाना जो मौजूदा सही उत्तर लेबल पर निर्भर नहीं करता
मॉडल की स्वयं मूल्य प्रवृत्ति को मापने की संभावना का सुझाव देना
Limitations:
संकेत का प्रभाव मॉडल की तुलना में अधिक प्रतीत होता है (जिससे मॉडल के स्वयं के मूल्य प्रवृत्ति माप की सटीकता पर प्रश्न उठते हैं)।
आइजेनट्रस्ट एल्गोरिथम की प्रकृति के कारण परिणामों की व्याख्या करना कठिन हो सकता है।
विभिन्न मूल्य प्रणालियों और परिदृश्यों में सामान्यीकरण को सत्यापित करने की आवश्यकता है।
👍