Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CountingFruit : Comptage de fruits 3D guidé par le langage avec éclaboussures gaussiennes sémantiques

Created by
  • Haebom

Auteur

Fengze Li, Yangle Liu, Jieming Ma, Hai-Ning Liang, Yaochun Shen, Huangxiang Li, Zhijing Wu

Contour

FruitLangGS est un outil de comptage de fruits 3D guidé par le langage. Il utilise un pipeline adaptatif d'échantillonnage gaussien dense, avec élagage sensible au rayon et rastérisation par tuiles, pour reconstruire des scènes à l'échelle du verger. Contrairement aux pipelines existants qui s'appuient sur une segmentation 2D multi-vues et un échantillonnage de volume dense, FruitLangGS filtre les vecteurs sémantiques compressés et alignés sur CLIP contenus dans chaque gaussienne grâce à un mécanisme de similarité cosinus à double seuil. Il permet ainsi de récupérer les gaussiennes pertinentes pour l'invite cible, sans réapprentissage ni masquage de l'espace image, et de supprimer les distracteurs courants (par exemple, les feuilles). Les gaussiennes sélectionnées sont échantillonnées à partir d'un nuage de points dense et regroupées géométriquement pour estimer les instances de fruits. Elles sont résistantes aux fortes occlusions et aux variations de point de vue. Des expériences menées sur neuf ensembles de données différents à l'échelle du verger démontrent que FruitLangGS surpasse systématiquement les pipelines existants en termes de rappel par comptage d'instances, évite les erreurs de fusion de segmentation multi-vues et atteint un rappel allant jusqu'à 99,7 % sur l'ensemble de données du verger Pfuji-Size_Orch2018. D'autres études d'ablation confirment que les intégrations sémantiques conditionnelles au langage et le filtrage des invites à double seuil sont essentiels pour supprimer les distracteurs et améliorer la précision du comptage en cas d'occlusion sévère. Au-delà du comptage des fruits, le même framework permet une récupération sémantique 3D basée sur les invites sans réapprentissage, soulignant le potentiel de la reconnaissance 3D guidée par le langage pour une compréhension évolutive des scènes agricoles.

Takeaways, Limitations

Takeaways:
Une solution efficace et précise au problème du comptage des fruits en 3D dans les vergers.
Nous présentons une nouvelle approche pour éviter les erreurs de fusion multi-vues et réduire les coûts de calcul.
Permet une récupération sémantique 3D basée sur des invites grâce à l'induction du langage.
Maintient une précision élevée même dans des situations d'occlusion sévères.
Présenter de nouvelles possibilités pour comprendre les scènes agricoles évolutives.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation, car l’évaluation des performances est biaisée en faveur d’un ensemble de données de verger spécifique.
L’applicabilité à divers types de fruits et environnements de vergers doit être vérifiée.
Les limitations du modèle CLIP dues à la dépendance au modèle CLIP peuvent également affecter FruitLangGS.
Une réflexion supplémentaire est nécessaire concernant la complexité informatique des méthodes de reconstruction 3D basées sur l’éclaboussure gaussienne.
👍