इस शोधपत्र में, हम ASSURE प्रस्तुत करते हैं, जो बड़े पैमाने पर भाषा मॉडल (LLM)-आधारित ब्राउज़र एक्सटेंशन की विश्वसनीयता के परीक्षण और आश्वासन के लिए एक नवीन स्वचालित परीक्षण ढाँचा है। मौजूदा परीक्षण पद्धतियों की सीमाओं को दूर करने के लिए, जो LLM एक्सटेंशन के गैर-नियतात्मक व्यवहार, संदर्भ संवेदनशीलता और जटिल वेब परिवेश एकीकरण को संभाल नहीं पातीं, ASSURE में तीन मुख्य घटक शामिल हैं: एक मॉड्यूलर परीक्षण केस जनरेशन इंजन, एक स्वचालित निष्पादन ढाँचा, और एक विन्यास योग्य सत्यापन पाइपलाइन। ASSURE सटीक आउटपुट मिलान के बजाय व्यवहारिक संगति और सुरक्षा अपरिवर्तनीयताओं का व्यवस्थित रूप से मूल्यांकन करता है, और छह लोकप्रिय AI ब्राउज़र एक्सटेंशन के मूल्यांकन के माध्यम से, हम प्रदर्शित करते हैं कि यह सुरक्षा कमजोरियों, क्रमपरिवर्तन संबंध उल्लंघनों और सामग्री संरेखण समस्याओं सहित 531 व्यक्तिगत समस्याओं की पहचान करता है, जिससे मैन्युअल तरीकों की तुलना में 6.4 गुना अधिक परीक्षण थ्रूपुट प्राप्त होता है।