दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम को अपनी निर्णय सीमाएँ नहीं पता: स्व-निर्मित प्रतितथ्यात्मक स्पष्टीकरणों की अविश्वसनीयता

Created by
  • Haebom

लेखक

हैरी मेने, रयान ओथनील किर्न्स, युशी यांग, एंड्रयू एम. बीन, इयोन डेलाने, क्रिस रसेल, एडम महदी

रूपरेखा

यह शोधपत्र स्व-निर्मित अर्ध-अनुभवजन्य स्पष्टीकरणों (एससीई) का उपयोग करके अपनी निर्णय-निर्माण प्रक्रियाओं की व्याख्या करने हेतु बड़े पैमाने के भाषा मॉडल (एलएलएम) की क्षमता का मूल्यांकन करता है। एससीई ऐसे स्पष्टीकरण हैं जो पूर्वानुमानित परिणामों को बदलने के लिए इनपुट को संशोधित करते हैं। हमारे परिणाम दर्शाते हैं कि एलएलएम मान्य एससीई उत्पन्न करते हैं, लेकिन न्यूनतम संशोधन करने में विफल रहते हैं, जिससे मॉडल की निर्णय-निर्माण प्रक्रियाओं की बहुत कम जानकारी मिलती है। विशेष रूप से, जब उनसे न्यूनतम संशोधनों के साथ एससीई उत्पन्न करने के लिए कहा जाता है, तो वे अत्यधिक छोटे संशोधन करते हैं जो पूर्वानुमानित परिणामों को बदलने में विफल रहते हैं। विभिन्न एलएलएम, डेटासेट और मूल्यांकन सेटिंग्स में, हम वैधता और न्यूनतमता के बीच एक समझौता देखते हैं। इसलिए, हम निष्कर्ष निकालते हैं कि एससीई एक प्रभावी व्याख्यात्मक उपकरण नहीं हैं और मॉडल व्यवहार के बारे में गलतफहमियों को जन्म दे सकते हैं। उच्च-दांव वाली स्थितियों में एलएलएम का उपयोग करने के लिए बाद के निर्णयों पर अविश्वसनीय स्व-स्पष्टीकरणों के प्रभाव पर विचार करना आवश्यक है।

Takeaways, Limitations

Takeaways: हमने पाया कि एलएलएम में स्व-निर्मित प्रति-अनुभवजन्य स्पष्टीकरण (एससीई) मॉडल की निर्णय-निर्माण प्रक्रिया को समझाने में अप्रभावी हैं और भ्रामक भी हो सकते हैं। उच्च-दांव वाली स्थितियों में एलएलएम का उपयोग करते समय अविश्वसनीय स्व-स्पष्टीकरणों के जोखिम पर विचार किया जाना चाहिए।
Limitations: यह निर्धारित करने के लिए और अधिक शोध की आवश्यकता है कि क्या SCE की वैधता और न्यूनतमता के बीच का समझौता LLM, डेटासेट और मूल्यांकन सेटिंग्स में सुसंगत है। विभिन्न व्याख्यात्मक तकनीकों और SCE का तुलनात्मक विश्लेषण आवश्यक है।
👍