यह शोधपत्र चिकित्सकीय दृष्टि से प्रासंगिक बड़े पैमाने के भाषा मॉडल (एलएलएम) में रोगियों के प्रश्नों के उत्तर देते समय मतिभ्रम की समस्या पर विचार करता है। पिछले अध्ययनों के विपरीत, जो मानकीकृत चिकित्सा परीक्षा प्रश्नों के माध्यम से एलएलएम के चिकित्सा ज्ञान का आकलन करने पर केंद्रित थे, यह अध्ययन वास्तविक रोगियों के चिकित्सा प्रश्नों के प्रति एलएलएम की प्रतिक्रियाओं में मतिभ्रम का विश्लेषण करता है। इस लक्ष्य को प्राप्त करने के लिए, हम मेडहालू प्रस्तुत करते हैं, जो एलएलएम द्वारा उत्पन्न विभिन्न चिकित्सा विषयों और मतिभ्रम प्रतिक्रियाओं से युक्त एक नया मानक है, और हम मतिभ्रम के प्रकारों और पाठ खंडों पर विस्तार से टिप्पणी करते हैं। इसके अलावा, हम मेडहालूडिटेक्ट का प्रस्ताव करते हैं, जो एलएलएम की मतिभ्रम पहचान क्षमताओं के मूल्यांकन के लिए एक व्यापक ढाँचा है, और चिकित्सा मतिभ्रम के प्रति व्यक्तियों के तीन समूहों की भेद्यता का अध्ययन करते हैं: चिकित्सा पेशेवर, एलएलएम और आम लोग। हमारे परिणाम दर्शाते हैं कि मतिभ्रम का पता लगाने में एलएलएम चिकित्सा पेशेवरों और कुछ मामलों में आम लोगों की तुलना में काफी खराब प्रदर्शन करते हैं। हम एक विशेषज्ञ-सम्मिलित दृष्टिकोण का प्रस्ताव करते हैं जो विशेषज्ञ अनुमानों को एलएलएम इनपुट में एकीकृत करता है, जिससे एलएलएम के मतिभ्रम का पता लगाने के प्रदर्शन में सुधार होता है (उदाहरण के लिए, जीपीटी-4 के लिए मैक्रो-एफ1 स्कोर में 6.3% सुधार)।