Dans cet article, nous proposons une méthode efficace de réglage fin des instructions visuelles (EVIT) qui minimise les coûts de calcul tout en améliorant l'adaptabilité à diverses sous-tâches. Pour résoudre le problème de collision de données des EVIT existantes, nous présentons un cadre d'adaptation à faible rang double (Dual-LoRA). Dual-LoRA améliore la capacité de l'adaptateur en utilisant deux sous-espaces : un espace de compétences qui conserve les connaissances globales et un espace de tâches rectifié par rang qui active les connaissances localement. De plus, nous introduisons un module d'amélioration des repères visuels (VCE) qui enrichit les détails locaux des projections de langage visuel. Dual-LoRA et VCE sont économes en mémoire et en temps, et leur efficacité est vérifiée sur diverses sous-tâches et sur des benchmarks MLLM courants.