यह पत्र अरबी भाषा की स्वास्थ्य सेवा में बड़े पैमाने पर भाषा मॉडल (एलएलएम) की प्रभावशीलता का मूल्यांकन करने के लिए एक उपन्यास बेंचमार्क डेटासेट, मेडअरबीक्यू का परिचय देता है। मेडअरबीक्यू में विभिन्न चिकित्सा विशेषज्ञताओं को कवर करने वाले सात अरबी भाषा के चिकित्सा कार्य (बहुविकल्पीय, रिक्त स्थान भरें, रोगी-डॉक्टर प्रश्न-उत्तर, आदि) शामिल हैं, और यह मौजूदा चिकित्सा परीक्षणों और सार्वजनिक डेटासेट पर बनाया गया है। हमने GPT-4o, क्लाउड 3.5-सॉनेट और जेमिनी 1.5 सहित पांच अत्याधुनिक ओपन-सोर्स और मालिकाना एलएलएम का उपयोग करके व्यापक मूल्यांकन किया और पूर्वाग्रह शमन सहित विभिन्न विशेषताओं का आकलन करने के लिए कई संशोधनों को लागू किया। हमारे निष्कर्ष स्वास्थ्य सेवा में एलएलएम के उचित वितरण और मापनीयता सुनिश्चित करने के लिए कई भाषाओं में फैले एक नए, उच्च-गुणवत्ता वाले बेंचमार्क की आवश्यकता पर प्रकाश डालते हैं।