यह शोधपत्र स्वास्थ्य सेवा में बड़े पैमाने के भाषा मॉडल (एलएलएम) की प्रगति और सीमाओं की जाँच करने वाला पहला व्यवस्थित समीक्षा है। हम इस बात पर प्रकाश डालते हैं कि एलएलएम में अभी भी नैदानिक अभ्यास के लिए आवश्यक व्यवस्थित, पारदर्शी और सत्यापन योग्य अनुमान क्षमताओं का अभाव है, और एकल-चरणीय उत्तर निर्माण से लेकर विशेष रूप से चिकित्सा तर्क के लिए डिज़ाइन किए गए एलएलएम के विकास तक के संक्रमण का विश्लेषण करते हैं। हम प्रशिक्षण रणनीतियों (जैसे, पर्यवेक्षित शिक्षण फ़ाइन-ट्यूनिंग, सुदृढीकरण शिक्षण) और परीक्षण तंत्रों (जैसे, शीघ्र इंजीनियरिंग, बहु-एजेंट प्रणालियाँ) द्वारा वर्गीकृत अनुमान-संवर्द्धन तकनीकों का एक वर्गीकरण प्रस्तावित करते हैं। हम विभिन्न डेटा मोडैलिटीज़ (पाठ, चित्र, कोड) और प्रमुख नैदानिक अनुप्रयोगों जैसे निदान, शिक्षा और उपचार योजना में इन तकनीकों के अनुप्रयोग का विश्लेषण करते हैं। हम मूल्यांकन मानदंडों के विकास की भी जाँच करते हैं, जो सरल सटीकता मापों से लेकर अनुमान गुणवत्ता और दृश्य व्याख्या के परिष्कृत आकलन तक हैं। 2022 और 2025 के बीच प्रकाशित 60 प्रमुख अध्ययनों का विश्लेषण करते हुए, हम महत्वपूर्ण चुनौतियों की पहचान करते हैं, जैसे विश्वसनीयता-संभाव्यता का अंतर और मौलिक मल्टीमॉडल अनुमान की आवश्यकता, और कुशल, मजबूत और सामाजिक-तकनीकी रूप से जिम्मेदार स्वास्थ्य सेवा एआई के निर्माण के लिए भविष्य की दिशाएँ सुझाते हैं।