दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

GUI ग्राउंडिंग के लिए स्व-विकसित वरीयता अनुकूलन के माध्यम से सक्रिय बोध सीखना

Created by
  • Haebom

लेखक

वानफू वांग, किपेंग हुआंग, गुआंगक्वान ज़ू, ज़ियाओबो लियांग, जुंताओ ली

रूपरेखा

यह शोधपत्र विज़न लैंग्वेज मॉडल्स (VLMs) के लिए प्रभावी इमेज रीजन इन्फ़रेंस की समस्या के समाधान हेतु LASER फ्रेमवर्क का प्रस्ताव करता है, जो उच्च-रिज़ॉल्यूशन इनपुट्स और जटिल बहु-तत्व विज़ुअल इंटरैक्शन के अंतर्गत GUI ग्राउंडिंग कार्यों में एक प्रमुख चुनौती है। LASER, मोंटे कार्लो गुणवत्ता आकलन और IoU-आधारित क्षेत्र गुणवत्ता आकलन को एकीकृत करके VLMs को बहु-स्तरीय अवधारणात्मक क्षमताओं से उत्तरोत्तर सशक्त बनाता है, जिससे सटीकता और विविधता दोनों में सुधार होता है और सटीक निर्देशांक भविष्यवाणी संभव होती है। यह मॉडल को निर्देशों से संबंधित प्रमुख क्षेत्रों पर ध्यान केंद्रित करने और कार्य की जटिलता के आधार पर अनुमान चरणों को अनुकूल रूप से आवंटित करने की अनुमति देता है। ScreenSpot Pro और ScreenSpot-v2 बेंचमार्क पर प्रायोगिक परिणाम LASER की प्रभावशीलता को दर्शाते हैं, और 7B-स्केल मॉडल्स के बीच इसके प्रदर्शन को प्रदर्शित करते हैं। विशेष रूप से, GTA1-7B पर परिशोधित LASER ने ScreenSpot-Pro बेंचमार्क पर 55.7 अंक प्राप्त किए।

Takeaways, Limitations

Takeaways:
वीएलएम की बहु-स्तरीय अवधारणात्मक क्षमता में सुधार के लिए एक प्रभावी ढांचा (लेज़र)
मोंटे कार्लो गुणवत्ता आकलन और IoU-आधारित मूल्यांकन को मिलाकर सटीकता और विविधता में सुधार किया गया।
उच्च-रिज़ॉल्यूशन इनपुट और जटिल दृश्य इंटरैक्शन के तहत बेहतर GUI ग्राउंडिंग प्रदर्शन।
7B-स्केल मॉडल में नए शिखर प्रदर्शन को प्राप्त करना
Limitations:
LASER के प्रदर्शन में सुधार विशिष्ट बेंचमार्क (स्क्रीनस्पॉट प्रो, स्क्रीनस्पॉट-v2) तक सीमित हो सकता है।
विभिन्न प्रकार के GUI और कार्यों में सामान्यीकरण प्रदर्शन का और अधिक सत्यापन आवश्यक है।
कम्प्यूटेशनल लागत और दक्षता का विश्लेषण आवश्यक है।
👍