Trong bài báo này, chúng tôi đề xuất một mô hình VPP-LLaVA sử dụng Visual Position Prompt (VPP) để giải quyết khó khăn trong việc căn chỉnh tọa độ chính xác trong các tác vụ nền tảng trực quan của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Lý do tại sao MLLM gặp khó khăn trong việc căn chỉnh tọa độ chính xác với thông tin không gian là do thiếu tham chiếu không gian rõ ràng và quy trình trích xuất đặc trưng ưu tiên ngữ cảnh toàn cục hơn các chi tiết không gian chi tiết. VPP-LLaVA giải quyết vấn đề này bằng cách tích hợp hai cơ chế: VPP toàn cục và VPP cục bộ. VPP toàn cục cung cấp các tín hiệu không gian có cấu trúc bằng cách chồng các tenxơ giống trục có thể học được lên các ảnh đầu vào, trong khi VPP cục bộ hỗ trợ nhận dạng vị trí chi tiết thông qua các truy vấn nhận biết vị trí. Ngoài ra, chúng tôi giới thiệu một tập dữ liệu VPP-SFT mới bao gồm 0,6 triệu mẫu nền tảng trực quan chất lượng cao để đào tạo hiệu quả. VPP-LLaVA đạt hiệu suất tiên tiến trên các điểm chuẩn nền tảng trực quan tiêu chuẩn và thể hiện hiệu suất khái quát hóa zero-shot mạnh mẽ trên các tập dữ liệu mới.