[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

City-VLM : Vers une compréhension multidomaine des scènes perceptives via un apprentissage multimodal incomplet

Created by
  • Haebom

Auteur

Penglei Sun, Yaoxian Song, Xiangru Zhu, Xiang Liu, Qiang Wang, Yue Liu, Changqun Xia, Tiefeng Li, Yang Yang, Xiaowen Chu

Contour

Dans cet article, nous présentons un nouvel ensemble de données de compréhension de scènes extérieures à grande échelle, SVM-City, qui contient des données multimodales obtenues à partir de plusieurs capteurs et de plusieurs points de vue (vues aériennes et au sol) afin de surmonter les limites des modèles de langage visuel à grande échelle (LVLM) centrés sur l'intérieur. SVM-City se compose de 420 000 images collectées à partir de véhicules, de drones à basse altitude, d'avions à haute altitude et de satellites, de 48,11 millions de nuages de points et de 567 000 paires questions-réponses. De plus, nous concevons un nouveau LVLM, City-VLM, en introduisant une technique d'apprentissage multimodal incomplète pour fusionner efficacement les données multimodales même lorsqu'une modalité est manquante. City-VLM effectue la fusion multimodale en construisant un espace de distribution de probabilités conjoint au lieu d'une opération de fusion explicite. Les résultats expérimentaux sur trois tâches représentatives de compréhension de scènes extérieures montrent que City-VLM réalise en moyenne 18,14 % de meilleures performances sur les tâches de questions-réponses que les LVLM existants, démontrant des performances pratiques et généralisables dans diverses scènes extérieures.

Takeaways, Limitations

Takeaways:
Un nouvel ensemble de données pour comprendre les scènes extérieures à l'aide de données multi-capteurs, multi-vues et multi-modalités : SVM-City
Proposer une méthode efficace de fusion multimodale grâce à un apprentissage multimodal incomplet
Développement du modèle City-VLM montrant des performances de compréhension de scènes extérieures améliorées par rapport au LVLM existant
Démonstration des performances de généralisation dans diverses scènes extérieures
Limitations:
Une réflexion supplémentaire est nécessaire concernant la taille et la diversité de l’ensemble de données SVM-City.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de l’apprentissage multimodal incomplet
Nécessité d'une analyse du coût et de l'efficacité du calcul de City-VLM
Il est nécessaire d'examiner les biais potentiels pour des types spécifiques de scènes extérieures
👍