दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एफजीबेंच: बड़े भाषा मॉडल में कार्यात्मक समूह-स्तर पर आणविक गुण तर्क के लिए एक डेटासेट और बेंचमार्क

Created by
  • Haebom

लेखक

जुआन लियू, सिरू ओयांग, जियानरुई झोंग, जियावेई हान, हुइमिन झाओ

रूपरेखा

यह शोधपत्र FGBench का परिचय देता है, जो 625,000 आणविक विशेषता अनुमान समस्याओं वाला एक नया डेटासेट है, जिसका उद्देश्य रसायन विज्ञान में कार्यात्मक समूह (FG) जानकारी का लाभ उठाने वाले बड़े पैमाने के भाषा मॉडल (LLM) के प्रदर्शन को बेहतर बनाना है। FGBench अणुओं के भीतर कार्यात्मक समूहों को सटीक रूप से एनोटेट और स्थानीयकृत करता है, आणविक संरचनाओं और पाठ्य विवरणों के बीच संबंध को मजबूत करता है और अधिक व्याख्यात्मक और संरचना-जागरूक LLM के विकास को सुगम बनाता है। यह तीन श्रेणियों (एकल-कार्यात्मक समूह प्रभाव, बहु-कार्यात्मक समूह अंतःक्रियाएँ, और प्रत्यक्ष आणविक तुलना) में 245 विभिन्न कार्यात्मक समूहों के लिए समाश्रयण और वर्गीकरण कार्यों को सम्मिलित करता है। अत्याधुनिक LLM के बेंचमार्क परिणाम दर्शाते हैं कि वर्तमान LLM कार्यात्मक समूह स्तर पर विशेषता अनुमान लगाने में संघर्ष करते हैं। FGBench पद्धति से कार्यात्मक समूह-स्तरीय जानकारी के साथ नए प्रश्न-उत्तर युग्म बनाने के लिए एक आधार के रूप में कार्य करने की उम्मीद है, जिससे LLM सूक्ष्म आणविक संरचना-गुण संबंधों को बेहतर ढंग से समझ सकेंगे। डेटासेट और मूल्यांकन कोड GitHub पर सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
हम FGBench प्रस्तुत करते हैं, जो एक नया डेटासेट है जो कार्यात्मक समूह स्तर पर सूक्ष्म जानकारी का उपयोग करके LLM की रासायनिक अनुमान क्षमता को बेहतर बनाने में योगदान दे सकता है।
आणविक संरचना और गुणों के बीच संबंधों की समझ में सुधार करके नई दवाओं के विकास और आणविक डिजाइन में प्रगति में योगदान देना।
एलएलएम के प्रदर्शन का मूल्यांकन और सुधार करने में सहायता के लिए विभिन्न कार्यात्मक समूहों के लिए प्रतिगमन और वर्गीकरण कार्य प्रदान करता है।
एफजीबेंच की कार्यप्रणाली अन्य रसायन-संबंधी डेटासेट बनाने के लिए आधार प्रदान करती है।
Limitations:
वर्तमान एलएलएम, एफजीबेंच में प्रस्तुत कार्यात्मक-स्तरीय अनुमान समस्याओं से जूझ रहे हैं, जिससे एलएलएम में प्रदर्शन सुधार की आवश्यकता का सुझाव मिलता है।
डेटासेट के आकार और विविधता पर आगे अनुसंधान की आवश्यकता हो सकती है।
कुछ कार्यात्मक समूहों के लिए पूर्वाग्रह या डेटा असंतुलन की समस्या होने की संभावना है।
👍