Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VisioFirm : outil d'annotation multiplateforme assisté par IA pour la vision par ordinateur

Created by
  • Haebom

Auteur

Safouane El Ghazouali, Umberto Michelucci

Contour

VisioFirm est une application web open source qui simplifie l'étiquetage des images grâce à une automatisation optimisée par l'IA. Elle intègre des modèles fondamentaux de pointe, tels que CLIP et Ultralytics, ainsi que Grounding DINO, pour générer des annotations initiales et maximiser le rappel grâce à un seuil de confiance faible. Les utilisateurs peuvent affiner les annotations grâce à des outils interactifs prenant en charge les cadres englobants, les cadres englobants orientés et les polygones. Elle offre également une segmentation en temps réel grâce à Segment Anything, accélérée par WebGPU. Elle prend en charge plusieurs formats d'exportation, dont YOLO, COCO, Pascal VOC et CSV, et fonctionne hors ligne après la mise en cache du modèle. Des tests comparatifs sur divers jeux de données ont montré une réduction des tâches manuelles jusqu'à 90 % tout en maintenant une précision d'annotation élevée.

Takeaways, Limitations

Takeaways:
L’automatisation basée sur l’IA peut améliorer considérablement l’efficacité de l’étiquetage des images.
Grande flexibilité avec prise en charge de divers types d'annotations (boîte englobante, boîte englobante orientée, polygone, segmentation) et formats d'exportation.
Accessibilité améliorée grâce à la prise en charge du fonctionnement hors ligne.
Il montre un effet de réduction de la charge de travail jusqu'à 90 % par rapport à l'étiquetage manuel existant.
Il est open source et peut être utilisé par n'importe qui.
Limitations:
Les performances actuelles sont basées sur les résultats des tests pour les classes de type COCO, et les performances sur d'autres types d'ensembles de données nécessitent une validation supplémentaire.
Si la prédiction initiale n’est pas exacte, des corrections importantes peuvent être nécessaires de la part de l’utilisateur.
Il existe une possibilité de précision d'annotation réduite pour les images complexes ou les classes spéciales.
Performances optimales uniquement dans les environnements de navigateur pris en charge par WebGPU.
👍