Dans cet article, nous proposons un modèle VPP-LLaVA utilisant l'invite de positionnement visuel (VPP) pour résoudre la difficulté d'alignement précis des coordonnées dans les tâches d'ancrage visuel des modèles linguistiques multimodaux à grande échelle (MLLM). La difficulté des MLLM à aligner précisément les coordonnées avec les informations spatiales s'explique par l'absence de référencement spatial explicite et par le processus d'extraction de caractéristiques qui privilégie le contexte global aux détails spatiaux précis. VPP-LLaVA résout ce problème en intégrant deux mécanismes : le VPP global et le VPP local. Le VPP global fournit des indices spatiaux structurés en superposant des tenseurs de type axe apprenables aux images d'entrée, tandis que le VPP local prend en charge l'identification fine de la position grâce à des requêtes sensibles à la position. De plus, nous introduisons un nouvel ensemble de données VPP-SFT composé de 0,6 million d'échantillons d'ancrage visuel de haute qualité pour un apprentissage efficace. VPP-LLaVA atteint des performances de pointe sur les benchmarks d'ancrage visuel standard et démontre d'excellentes performances de généralisation zéro-shot sur de nouveaux ensembles de données.