दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मेडअरबीक्यू: अरबी चिकित्सा कार्यों पर बड़े भाषा मॉडल की बेंचमार्किंग

Created by
  • Haebom

लेखक

मौथ अबू दाउद, चाइमे अबूजाहिर, लीन खरौफ, वालिद अल-ईसावी, निज़ार हबाश, फराह ई. शामौत

रूपरेखा

यह पत्र अरबी भाषा की स्वास्थ्य सेवा में बड़े पैमाने पर भाषा मॉडल (एलएलएम) की प्रभावशीलता का मूल्यांकन करने के लिए एक उपन्यास बेंचमार्क डेटासेट, मेडअरबीक्यू का परिचय देता है। मेडअरबीक्यू में विभिन्न चिकित्सा विशेषज्ञताओं को कवर करने वाले सात अरबी भाषा के चिकित्सा कार्य (बहुविकल्पीय, रिक्त स्थान भरें, रोगी-डॉक्टर प्रश्न-उत्तर, आदि) शामिल हैं, और यह मौजूदा चिकित्सा परीक्षणों और सार्वजनिक डेटासेट पर बनाया गया है। हमने GPT-4o, क्लाउड 3.5-सॉनेट और जेमिनी 1.5 सहित पांच अत्याधुनिक ओपन-सोर्स और मालिकाना एलएलएम का उपयोग करके व्यापक मूल्यांकन किया और पूर्वाग्रह शमन सहित विभिन्न विशेषताओं का आकलन करने के लिए कई संशोधनों को लागू किया। हमारे निष्कर्ष स्वास्थ्य सेवा में एलएलएम के उचित वितरण और मापनीयता सुनिश्चित करने के लिए कई भाषाओं में फैले एक नए, उच्च-गुणवत्ता वाले बेंचमार्क की आवश्यकता पर प्रकाश डालते हैं।

Takeaways, Limitations

Takeaways:
हम अरबी चिकित्सा क्षेत्रों में विशेषज्ञता प्राप्त उच्च गुणवत्ता वाले बेंचमार्क डेटासेट, मेडअरबीक्यू, प्रदान करके एलएलएम के प्रदर्शन मूल्यांकन और सुधार में योगदान करते हैं।
हम अरबी चिकित्सा क्षेत्रों में विभिन्न एलएलएम कार्यक्रमों के प्रदर्शन के तुलनात्मक विश्लेषण के माध्यम से भविष्य के अनुसंधान दिशा-निर्देश प्रस्तुत करते हैं।
यह स्वास्थ्य सेवा क्षेत्र में एलएलएम के समान वितरण और मापनीयता के लिए बहुभाषीय मानक विकसित करने के महत्व पर प्रकाश डालता है।
हम चिकित्सा क्षेत्र में जनरेटिव एआई को लागू करने के लिए एक न्यायसंगत दृष्टिकोण प्रस्तुत करते हैं।
Limitations:
वर्तमान बेंचमार्क अरबी चिकित्सा डोमेन तक सीमित है, जो अन्य भाषाओं और चिकित्सा डोमेन तक इसकी मापनीयता को सीमित कर सकता है।
प्रयुक्त एलएलएम के प्रकार और संस्करण सीमित हो सकते हैं, तथा अधिक विविध मॉडलों का मूल्यांकन आवश्यक हो सकता है।
भविष्य के अनुसंधान में डेटासेट के आकार और विविधता में सुधार किया जा सकता है।
👍