Dans cet article, nous proposons un modèle VPP-LLaVA qui utilise l'invite de position visuelle (VPP) pour résoudre le problème de l'alignement précis des coordonnées dans la tâche d'ancrage visuel des modèles linguistiques multimodaux à grande échelle (MLLM). Ces derniers peinent à aligner précisément les coordonnées avec les informations spatiales en raison de l'absence de référencement spatial explicite et du processus d'extraction de caractéristiques qui privilégie le contexte global aux détails spatiaux précis. VPP-LLaVA résout ce problème en intégrant deux mécanismes complémentaires : le VPP global et le VPP local. Le VPP global fournit des indices spatiaux structurés en superposant des tenseurs de type axe apprenables aux images d'entrée, tandis que le VPP local intègre des requêtes de localisation pour une localisation précise. De plus, nous introduisons un nouvel ensemble de données VPP-SFT composé de 0,6 million d'échantillons d'ancrage visuel de haute qualité pour un apprentissage efficace. VPP-LLaVA obtient des résultats de pointe sur les benchmarks d'ancrage visuel standard et démontre d'excellentes performances de généralisation sans échantillonnage sur des ensembles de données inédits.