[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

HATS: बड़े भाषा मॉडल में तर्कशक्ति के मूल्यांकन हेतु हिंदी सादृश्य परीक्षण सेट

Created by
  • Haebom

लेखक

आश्रय गुप्ता, रोहन जोसेफ, सनी राय

रूपरेखा

इस शोधपत्र में, हम हिंदी में सादृश्य प्रदर्शन का आकलन करने के लिए एक नया डेटासेट, हिंदी सादृश्य परीक्षण सेट (HATS) प्रस्तुत करते हैं। HATS में भारत सरकार की परीक्षाओं से लिए गए 405 बहुविकल्पीय प्रश्न हैं और इसका उपयोग विभिन्न भाषा मॉडलों के सादृश्य प्रदर्शन का आकलन करने के लिए किया जाता है। इस शोधपत्र में, हम विभिन्न संकेत रणनीतियों और संज्ञानात्मक सिद्धांत पर आधारित एक आधारभूत विचार श्रृंखला दृष्टिकोण का उपयोग करके अत्याधुनिक बहुभाषी एलएलएम का मूल्यांकन करते हैं और हिंदी सादृश्य कार्यों पर मॉडल प्रदर्शन को बेहतर बनाने के लिए एक विधि सुझाते हैं। प्रायोगिक परिणाम दर्शाते हैं कि संकेत रणनीति की परवाह किए बिना, अंग्रेजी संकेतों का उपयोग करने पर मॉडल प्रदर्शन सर्वोत्तम होता है। यह अध्ययन हिंदी में एलएलएम तर्क प्रदर्शन के आकलन के लिए संसाधनों की गंभीर कमी को संबोधित करता है।

Takeaways, Limitations

Takeaways:
हम हिंदी भाषा में एलएलएम तर्क क्षमता के मूल्यांकन के लिए एक नया डेटासेट HATS प्रदान करते हैं।
हम प्रदर्शित करते हैं कि ग्राउंडेड चेन ऑफ थॉट दृष्टिकोण हिंदी अनुमान समस्या पर मॉडल प्रदर्शन को बेहतर बनाने में योगदान देता है।
यह बहुभाषी एलएलएम की अनुरूपता क्षमता का आकलन करने और भाषाओं के बीच सामान्यीकरण करने की उनकी क्षमता का विश्लेषण करने में योगदान देता है।
हम अंग्रेजी संकेतों की प्रभावशीलता की जांच करते हैं और भविष्य के अनुसंधान के लिए दिशा-निर्देश सुझाते हैं।
Limitations:
वर्तमान में, HATS भारत सरकार की परीक्षा के प्रश्नों तक ही सीमित है और हो सकता है कि यह हिंदी भाषा में विभिन्न प्रकार के सादृश्यों को पूरी तरह से प्रतिबिंबित न कर पाए।
मूल्यांकन के लिए प्रयुक्त एलएलएम का प्रकार और आकार सीमित हो सकता है।
यह निष्कर्ष कि अंग्रेजी संकेत सबसे अधिक प्रभावी हैं, यह सुझाव देता है कि अंतर-भाषाई पूर्वाग्रह पर विचार करने की आवश्यकता है।
ग्राउंडेड चेन ऑफ थॉट दृष्टिकोण की सामान्यता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
👍