दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

निजी तौर पर निदान करना सीखना: रेडियोलॉजी रिपोर्ट वर्गीकरण के लिए डीपी-संचालित एलएलएम

Created by
  • Haebom

लेखक

पायल भट्टाचार्जी, फेंगवेई तियान, जेफ्री डी. रुबिन, जोसेफ वाई. लो, नीरव मर्चेंट, हेइदी हैनसन, जॉन गौनले, रवि टंडन

रूपरेखा

यह अध्ययन मेडिकल इमेज रिपोर्ट टेक्स्ट का उपयोग करके बहु-ऑब्जेक्ट वर्गीकरण हेतु विभेदक गोपनीयता (DP) का उपयोग करते हुए एक बड़े पैमाने के भाषा मॉडल (LLM) को परिष्कृत करने हेतु एक रूपरेखा प्रस्तावित करता है। परिष्कृत करने की प्रक्रिया के दौरान क्षतिपूर्ति शोर को शामिल करके, हमारा उद्देश्य संवेदनशील रोगी डेटा से जुड़े गोपनीयता जोखिमों को कम करना और वर्गीकरण प्रदर्शन को बनाए रखते हुए डेटा रिसाव को रोकना है। 2011 से 2019 तक एकत्रित सार्वजनिक रूप से उपलब्ध MIMIC-CXR चेस्ट रेडियोग्राफ़ और CT-RATE कंप्यूटेड टोमोग्राफी डेटासेट से 50,232 मेडिकल इमेज रिपोर्टों का उपयोग करते हुए, हमने तीन मॉडल आर्किटेक्चर: BERT-मीडियम, BERT-स्मॉल और ALBERT-बेस पर विभेदक गोपनीयता निम्न-आयामी अनुकूलन (DP-LoRA) का उपयोग करके LLM को परिष्कृत किया, ताकि MIMIC-CXR डेटासेट से 14 लेबल और CT-RATE डेटासेट से 18 लेबल वर्गीकृत किए जा सकें। हमने विभिन्न गोपनीयता स्तरों (गोपनीयता बजट = {0.01, 0.1, 1.0, 10.0}) पर भारित F1 स्कोर का उपयोग करके मॉडल के प्रदर्शन का मूल्यांकन किया और गोपनीयता-उपयोगिता ट्रेड-ऑफ़ को मापने के लिए विभिन्न गोपनीयता स्तरों पर मॉडल के प्रदर्शन की तुलना की। प्रायोगिक परिणामों ने दो अलग-अलग डेटासेट और तीन अलग-अलग मॉडलों में स्पष्ट गोपनीयता-उपयोगिता ट्रेड-ऑफ़ का खुलासा किया। मध्यम गोपनीयता गारंटी के तहत, DP फ़ाइन-ट्यून्ड मॉडल ने MIMIC-CXR के लिए 0.88 और CT-RATE के लिए 0.59 का भारित F1 स्कोर हासिल किया, जो गैर-गोपनीयता-संरक्षण LoRA बेसलाइन मॉडल (क्रमशः 0.90 और 0.78) के अपेक्षाकृत समान प्रदर्शन को प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
हम विभेदक गोपनीयता (डीपी) तकनीकों का उपयोग करके चिकित्सा डेटा की गोपनीयता सुरक्षा और बेहतर एलएलएम प्रदर्शन को एक साथ प्राप्त करने की संभावना प्रस्तुत करते हैं।
LoRA का उपयोग करते हुए एक कुशल DP-आधारित LLM फ़ाइन-ट्यूनिंग विधि प्रस्तुत की गई है।
विभिन्न चिकित्सा डेटासेट और मॉडल आर्किटेक्चर पर प्रयोगों के माध्यम से सामान्यीकरण को सत्यापित किया गया।
मध्यवर्ती गोपनीयता स्तरों पर भी अपेक्षाकृत उच्च वर्गीकरण प्रदर्शन बनाए रखता है।
Limitations:
गोपनीयता स्तर और मॉडल प्रदर्शन (गोपनीयता-उपयोगिता व्यापार-बंद) के बीच एक समझौता है।
उपयोग किए गए डेटासेट की विशेषताओं के आधार पर प्रदर्शन में अंतर हो सकता है (MIMIC-CXR की तुलना में CT-RATE डेटासेट के प्रदर्शन में गिरावट)।
अधिक विविध चिकित्सा डेटासेट और एलएलएम आर्किटेक्चर पर आगे के प्रयोगों की आवश्यकता है।
वास्तविक नैदानिक सेटिंग्स में अनुप्रयोग के लिए आगे सत्यापन की आवश्यकता है।
👍