[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MindJourney : Mise à l'échelle du temps de test avec des modèles mondiaux pour le raisonnement spatial

Created by
  • Haebom

Auteur

Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan

Contour

Dans cet article, nous proposons MindJourney, un nouveau framework de mise à l'échelle en temps de test pour améliorer la capacité d'inférence spatiale 3D des modèles de langage visuel (MLV). MindJourney combine un modèle du monde contrôlable basé sur la diffusion vidéo avec un MLV afin de surmonter la limitation du MLV à reconnaître uniquement les images 2D et de l'aider à comprendre la dynamique 3D. Le MLV planifie les trajectoires de la caméra, le modèle du monde synthétise les points de vue correspondant à chaque étape et le MLV infère à partir des données multi-vues obtenues lors du processus d'exploration interactive. Nous obtenons une amélioration moyenne des performances de plus de 8 % sur SAT, un benchmark représentatif d'inférence spatiale, sans aucun réglage fin, démontrant que la combinaison du modèle du monde pour la mise à l'échelle en temps de test est une approche simple et prête à l'emploi pour une inférence 3D robuste. De plus, nous démontrons le potentiel de l'exploitation du modèle du monde pour la mise à l'échelle en temps de test en surpassant un MLV d'inférence en temps de test entraîné par apprentissage par renforcement.

Takeaways, Limitations_

Takeaways:
Nous démontrons que la combinaison de modèles mondiaux et de VLM pour la mise à l’échelle du temps de test peut améliorer les performances d’inférence spatiale 3D.
Il s’avère qu’il s’agit d’une méthode efficace qui permet d’améliorer les performances sans nécessiter de réglages précis.
Nous démontrons l’utilité de l’approche basée sur le modèle mondial en surpassant le VLM basé sur l’apprentissage par renforcement.
Conception simple et plug-and-play, hautement applicable à divers VLM.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Les modèles mondiaux peuvent être coûteux en termes de calcul.
Il est nécessaire de vérifier si les améliorations de performance pour un benchmark spécifique se traduisent par les mêmes améliorations de performance pour d’autres benchmarks.
Il peut y avoir une forte dépendance à la précision du modèle mondial.
👍