इस पत्र में, हमने चीन के नौ चिकित्सा केंद्रों और सार्वजनिक TCIA समूह से प्राप्त 27,866 सीटी स्कैन डेटा का उपयोग करके, गुर्दे के ट्यूमर के लक्षण विश्लेषण, निदान और रोगनिदान के लिए एक दृश्य-भाषा-आधारित मॉडल, रेनलक्लिप (RenalCLIP) विकसित और मान्य किया है। दो-चरणीय पूर्व-प्रशिक्षण रणनीति (डोमेन-विशिष्ट ज्ञान के साथ छवि और पाठ एनकोडर को बढ़ाना और फिर उन्हें एक विपरीत शिक्षण उद्देश्य के साथ संरेखित करना) ने मजबूत निरूपण प्रदान किए, जिससे उत्कृष्ट सामान्यीकरण और नैदानिक सटीकता प्राप्त हुई। रेनलक्लिप (RenalCLIP) ने मौजूदा अत्याधुनिक सामान्य-उद्देश्य सीटी-आधारित मॉडलों से बेहतर प्रदर्शन किया और गुर्दे के कैंसर के संपूर्ण नैदानिक कार्यप्रवाह (शारीरिक मूल्यांकन, नैदानिक वर्गीकरण और उत्तरजीविता भविष्यवाणी) में फैले 10 मुख्य कार्यों में बेहतर सामान्यीकरण का प्रदर्शन किया। विशेष रूप से, TCIA समूह में पुनरावृत्ति-मुक्त उत्तरजीविता की भविष्यवाणी जैसे जटिल कार्य में, इसने 0.726 का सी-इंडेक्स प्राप्त किया, जो पिछले सर्वश्रेष्ठ प्रदर्शन करने वाले बेसलाइन मॉडल से लगभग 20% अधिक है। इसके अलावा, इसने उल्लेखनीय डेटा दक्षता प्रदर्शित की, जिसमें एक नैदानिक वर्गीकरण कार्य पर, सभी आधारभूत मॉडलों के सर्वश्रेष्ठ प्रदर्शन तक पहुँचने के लिए केवल 20% प्रशिक्षण डेटा की आवश्यकता थी, और 100% डेटा पर पूरी तरह से परिशोधित किया गया। रिपोर्ट निर्माण, छवि-पाठ खोज और शून्य-शॉट नैदानिक कार्यों में भी उत्कृष्ट प्रदर्शन प्राप्त हुआ। निष्कर्षतः, रेनलक्लिप एक शक्तिशाली उपकरण के रूप में स्वयं को प्रदर्शित करता है जो बेहतर नैदानिक सटीकता, बेहतर रोग-निदान स्तरीकरण और गुर्दे के कैंसर के रोगियों के व्यक्तिगत प्रबंधन में योगदान दे सकता है।