दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

निजी तौर पर निदान करना सीखना: रेडियोलॉजी रिपोर्ट वर्गीकरण के लिए डीपी-संचालित एलएलएम

Created by
  • Haebom

लेखक

पायल भट्टाचार्जी, फेंगवेई तियान, जेफ्री डी. रुबिन, जोसेफ वाई. लो, नीरव मर्चेंट, हेइदी हैनसन, जॉन गौनले, रवि टंडन

रूपरेखा

यह अध्ययन रेडियोलॉजी रिपोर्ट के पाठ में बहु-विसंगतियों का पता लगाने हेतु विभेदक गोपनीयता (DP) का उपयोग करते हुए एक बड़े पैमाने के भाषा मॉडल (LLM) को परिष्कृत करने हेतु एक रूपरेखा प्रस्तावित करता है। परिष्कृत करने के दौरान क्षतिपूर्ति शोर को शामिल करके, हमारा उद्देश्य संवेदनशील रोगी डेटा से जुड़े गोपनीयता जोखिमों को कम करना और वर्गीकरण प्रदर्शन को बनाए रखते हुए डेटा रिसाव को रोकना है। MIMIC-CXR और CT-RATE डेटासेट (2011 से 2019 तक एकत्रित 50,232 रिपोर्ट) का उपयोग करते हुए, हमने विभेदक गोपनीयता निम्न-रैंक अनुकूलन (DP-LoRA) का उपयोग करके तीन मॉडल आर्किटेक्चर: BERT-मध्यम, BERT-लघु और ALBERT-आधार को परिष्कृत किया। हमने गोपनीयता-उपयोगिता ट्रेडऑफ़ का मात्रात्मक विश्लेषण करने के लिए भारित F1 स्कोर का उपयोग करके विभिन्न गोपनीयता बजटों (0.01, 0.1, 1.0 और 10.0) के तहत मॉडल प्रदर्शन का मूल्यांकन किया।

Takeaways, Limitations

Takeaways:
LoRA का उपयोग करते हुए विभेदक गोपनीयता फाइन-ट्यूनिंग, संवेदनशील चिकित्सा डेटा पर LLM को फाइन-ट्यूनिंग करने में प्रमुख चुनौतियों का समाधान करती है, जिससे रेडियोलॉजी रिपोर्टों से प्रभावी और गोपनीयता-संरक्षण बहु-विसंगति वर्गीकरण संभव हो पाता है।
उचित गोपनीयता गारंटी के तहत, डीपी फाइन-ट्यून्ड मॉडल ने गैर-गोपनीयता-संरक्षण LoRA बेसलाइन मॉडल की तुलना में MIMIC-CXR (0.88 बनाम 0.90) और CT-RATE (0.59 बनाम 0.78) डेटासेट पर समान भारित F1 स्कोर हासिल किया।
हमने प्रयोगात्मक रूप से विभिन्न मॉडल आर्किटेक्चर और गोपनीयता स्तरों पर गोपनीयता-उपयोगिता व्यापार-बंद का सत्यापन किया।
Limitations:
यह अध्ययन विशिष्ट डेटासेट (MIMIC-CXR, CT-RATE) और मॉडल आर्किटेक्चर (BERT-मध्यम, BERT-लघु, ALBERT-आधार) तक सीमित था, जिसके लिए सामान्यीकरण पर आगे अनुसंधान की आवश्यकता थी।
गोपनीयता-उपयोगिता का संतुलन डेटासेट और मॉडल में भिन्न हो सकता है, तथा गोपनीयता के इष्टतम स्तर को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
अधिक विविध चिकित्सा डेटासेट और नैदानिक परिदृश्यों के लिए प्रयोज्यता को सत्यापित करने की आवश्यकता है।
👍