दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसटी-रैप्टर: एलएलएम-संचालित अर्ध-संरचित टेबल प्रश्नोत्तर

Created by
  • Haebom

लेखक

ज़िरुई तांग, बोयू नीयू, ज़ुआनहे झोउ, बॉक्सिउ ली, वेई झोउ, जियानन वांग, गुओलियांग ली, ज़िनी झांग, फैन वू

रूपरेखा

यह शोधपत्र ST-Raptor का प्रस्ताव करता है, जो अर्ध-संरचित तालिकाओं के प्रश्नों के उत्तर देने के स्वचालन हेतु एक नवीन ढाँचा है, जिसका वास्तविक दुनिया के अनुप्रयोगों में व्यापक रूप से उपयोग किया जाता है। अर्ध-संरचित तालिकाओं में जटिल लेआउट होते हैं, जैसे पदानुक्रमित शीर्षलेख और मर्ज किए गए कक्ष, जिससे मौजूदा NL2SQL, NL2Code, और बहु-मोडल LLM QA विधियों का उपयोग करके सटीक प्रश्नों का उत्तर देना मुश्किल हो जाता है। ST-Raptor जटिल लेआउट का प्रतिनिधित्व करने के लिए पदानुक्रमित ऑर्थोगोनल वृक्षों (HO-वृक्षों) का उपयोग करता है और बुनियादी वृक्ष संचालनों के माध्यम से LLM क्वेरी प्रसंस्करण को सक्षम बनाता है। यह उपयोगकर्ता क्वेरीज़ को उप-प्रश्नों में विघटित करता है, एक वृक्ष संचालन पाइपलाइन उत्पन्न करता है, और सटीक पाइपलाइन निष्पादन सुनिश्चित करने के लिए संचालन-तालिका संरेखण करता है। इसके अलावा, परिणामों की सटीकता बढ़ाने के लिए अग्रगामी और पश्चगामी सत्यापन का उपयोग किया जाता है। हम एक नए डेटासेट, SSTQA, जिसमें 102 वास्तविक अर्ध-संरचित तालिकाएँ और 764 प्रश्न शामिल हैं, का उपयोग करके अपने दृष्टिकोण के प्रदर्शन का मूल्यांकन करते हैं, जिससे मौजूदा विधियों की तुलना में 20% तक अधिक सटीकता प्राप्त होती है।

Takeaways, Limitations

Takeaways:
हम अर्ध-संरचित तालिका क्वेरी-उत्तर समस्या के लिए एक प्रभावी दृष्टिकोण प्रस्तुत करते हैं।
हम HO-ट्री मॉडल और ट्री ऑपरेशन पर आधारित एक फ्रेमवर्क का प्रस्ताव करते हैं जो जटिल टेबल लेआउट को प्रभावी ढंग से संभालता है।
दो-चरणीय सत्यापन तंत्र के माध्यम से प्रतिक्रियाओं की विश्वसनीयता में सुधार करता है।
हम एक नया बेंचमार्क डेटासेट, SSTQA प्रदान करते हैं।
यह मौजूदा तरीकों की तुलना में 20% तक बेहतर सटीकता दर्शाता है।
Limitations:
SSTQA डेटासेट का आकार अपेक्षाकृत छोटा हो सकता है।
HO-ट्री मॉडल सभी प्रकार के अर्ध-संरचित तालिका लेआउट को पूरी तरह से कैप्चर नहीं कर सकता है।
यह एलएलएम के प्रदर्शन पर निर्भर है, और एलएलएम की सीमाएं एसटी-रैप्टर के प्रदर्शन को प्रभावित कर सकती हैं।
विभिन्न प्रकार के प्रश्नों के लिए सामान्यीकरण प्रदर्शन को और अधिक मान्य किये जाने की आवश्यकता है।
👍