दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विज़ियोफ़र्म: कंप्यूटर विज़न के लिए क्रॉस-प्लेटफ़ॉर्म AI-सहायता प्राप्त एनोटेशन टूल

Created by
  • Haebom

लेखक

सफौने एल ग़ज़ौली, अम्बर्टो मिशेलुची

रूपरेखा

VisioFirm एक ओपन-सोर्स वेब एप्लिकेशन है जो AI-संचालित स्वचालन के माध्यम से इमेज लेबलिंग को सुव्यवस्थित करता है। यह CLIP और अल्ट्रालाइटिक्स मॉडल, और ग्राउंडिंग DINO जैसे अत्याधुनिक आधारभूत मॉडलों को एकीकृत करता है, ताकि प्रारंभिक एनोटेशन तैयार किए जा सकें और कम विश्वसनीयता सीमा का उपयोग करके रिकॉल को अधिकतम किया जा सके। उपयोगकर्ता बाउंडिंग बॉक्स, ओरिएंटेड बाउंडिंग बॉक्स और पॉलीगॉन का समर्थन करने वाले इंटरैक्टिव टूल के साथ एनोटेशन को परिष्कृत कर सकते हैं, और यह WebGPU द्वारा त्वरित, Segment Anything का उपयोग करके रीयल-टाइम सेगमेंटेशन भी प्रदान करता है। यह YOLO, COCO, Pascal VOC, और CSV सहित कई निर्यात स्वरूपों का समर्थन करता है, और मॉडल कैशिंग के बाद ऑफ़लाइन संचालित होता है। विभिन्न डेटासेट पर बेंचमार्क ने दिखाया है कि यह उच्च एनोटेशन सटीकता बनाए रखते हुए मैन्युअल प्रयास को 90% तक कम करता है।

Takeaways, Limitations

Takeaways:
एआई-आधारित स्वचालन छवि लेबलिंग की दक्षता में उल्लेखनीय सुधार कर सकता है।
विभिन्न एनोटेशन प्रकारों (बाउंडिंग बॉक्स, ओरिएंटेड बाउंडिंग बॉक्स, पॉलीगॉन, सेगमेंटेशन) और निर्यात प्रारूपों के समर्थन के साथ उच्च लचीलापन।
ऑफ़लाइन संचालन का समर्थन करके बेहतर पहुंच।
यह मौजूदा मैनुअल लेबलिंग की तुलना में कार्यभार को 90% तक कम करने का प्रभाव दर्शाता है।
यह खुला स्रोत है और इसका उपयोग कोई भी कर सकता है।
Limitations:
वर्तमान प्रदर्शन COCO प्रकार की कक्षाओं के लिए परीक्षण परिणामों पर आधारित है, और अन्य प्रकार के डेटासेट पर प्रदर्शन के लिए आगे सत्यापन की आवश्यकता है।
यदि प्रारंभिक पूर्वानुमान सटीक नहीं है, तो उपयोगकर्ता को महत्वपूर्ण सुधार करने की आवश्यकता हो सकती है।
जटिल छवियों या विशेष वर्गों के लिए एनोटेशन सटीकता कम होने की संभावना है।
केवल WebGPU समर्थित ब्राउज़र वातावरण में इष्टतम प्रदर्शन.
👍