[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ASSURE: AI-संचालित ब्राउज़र एक्सटेंशन के लिए मेटामॉर्फिक परीक्षण

Created by
  • Haebom

लेखक

जुआनकी गाओ, जुआन झाई, शिक्विंग मा, सियी झी, चाओ शेन

रूपरेखा

इस शोधपत्र में, हम ASSURE प्रस्तुत करते हैं, जो बड़े पैमाने पर भाषा मॉडल (LLM)-आधारित ब्राउज़र एक्सटेंशन की विश्वसनीयता के परीक्षण और आश्वासन के लिए एक नवीन स्वचालित परीक्षण ढाँचा है। मौजूदा परीक्षण पद्धतियों की सीमाओं को दूर करने के लिए, जो LLM एक्सटेंशन के गैर-नियतात्मक व्यवहार, संदर्भ संवेदनशीलता और जटिल वेब परिवेश एकीकरण को संभाल नहीं पातीं, ASSURE में तीन मुख्य घटक शामिल हैं: एक मॉड्यूलर परीक्षण केस जनरेशन इंजन, एक स्वचालित निष्पादन ढाँचा, और एक विन्यास योग्य सत्यापन पाइपलाइन। ASSURE सटीक आउटपुट मिलान के बजाय व्यवहारिक संगति और सुरक्षा अपरिवर्तनीयताओं का व्यवस्थित रूप से मूल्यांकन करता है, और छह लोकप्रिय AI ब्राउज़र एक्सटेंशन के मूल्यांकन के माध्यम से, हम प्रदर्शित करते हैं कि यह सुरक्षा कमजोरियों, क्रमपरिवर्तन संबंध उल्लंघनों और सामग्री संरेखण समस्याओं सहित 531 व्यक्तिगत समस्याओं की पहचान करता है, जिससे मैन्युअल तरीकों की तुलना में 6.4 गुना अधिक परीक्षण थ्रूपुट प्राप्त होता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम-आधारित ब्राउज़र एक्सटेंशन के परीक्षण के लिए एक नया दृष्टिकोण प्रस्तुत करते हैं।
यह मौजूदा पद्धतियों की सीमाओं पर काबू पाता है और कुशल और व्यापक परीक्षण को सक्षम बनाता है।
स्वचालित परीक्षण से विकास पाइपलाइनों में एकीकरण की संभावना बढ़ जाती है।
ASSURE की प्रभावशीलता वास्तविक AI ब्राउज़र एक्सटेंशन के मूल्यांकन के माध्यम से प्रदर्शित की गई (531 मुद्दों की पहचान की गई, मैनुअल तरीकों की तुलना में थ्रूपुट में 6.4x सुधार)।
औसतन 12.4 मिनट के भीतर गंभीर सुरक्षा कमजोरियों का पता लगाता है।
Limitations:
वर्तमान मूल्यांकन छह एक्सटेंशन तक सीमित है, तथा एक्सटेंशन की व्यापक श्रेणी का परीक्षण आवश्यक है।
ASSURE की मापनीयता और विभिन्न LLMs और ब्राउज़रों के लिए अनुकूलनशीलता पर आगे अनुसंधान की आवश्यकता है।
मॉड्यूलर डिजाइन की जटिलता के कारण रखरखाव में कठिनाइयां आ सकती हैं।
जैसे-जैसे नए प्रकार के एलएलएम-आधारित ब्राउज़र एक्सटेंशन सामने आते हैं, उन्हें निरंतर अपडेट और सुधार की आवश्यकता होती है।
👍