Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ViGiL3D : un ensemble de données linguistiquement diversifié pour l'ancrage visuel 3D

Created by
  • Haebom

Auteur

Austin T. Wang, ZeMing Gong, Angel X. Chang

Contour

Cet article aborde la recherche d'objets dans des scènes 3D référencées par du texte en langage naturel en 3D Visual Grounding (3DVG). Des recherches récentes se sont concentrées sur l'extension des jeux de données 3DVG basés sur LLM, mais ces jeux de données présentent des limites : ils ne couvrent pas tous les types de questions exprimables en anglais. Par conséquent, cet article propose un cadre d'analyse linguistique des invites 3DVG et présente ViGiL3D, un jeu de données diagnostique permettant d'évaluer les méthodes de 3DVG à vocabulaire ouvert pour divers modèles linguistiques. Nous évaluons les méthodes 3DVG à vocabulaire ouvert existantes et montrons qu'elles ne parviennent toujours pas à comprendre et à identifier les cibles pour des questions plus difficiles et hors distribution, en vue d'applications pratiques.

Takeaways, Limitations

Takeaways: Nous présentons ViGiL3D, un jeu de données 3DVG contenant divers modèles de langage, afin de révéler les limites des méthodes existantes et de suggérer des pistes de recherche futures. Nous établissons des critères d'évaluation des performances des modèles 3DVG pour des questions plus diverses et plus complexes, plus proches des applications concrètes.
Limitations : L'ensemble de données ViGiL3D ne couvre peut-être pas parfaitement tous les modèles de langage possibles. Des recherches supplémentaires sont nécessaires sur les performances de généralisation du cadre et de l'ensemble de données proposés. Bien qu'il montre clairement les limites de l'applicabilité concrète des méthodes 3DVG actuelles, il manque des suggestions d'amélioration spécifiques.
👍