Bài báo này trình bày một nghiên cứu toàn diện về các đặc điểm đa phương thức chi tiết trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM), đặc biệt giải quyết vấn đề thực tế thị giác (VG). Mặc dù các nghiên cứu trước đây đã sử dụng nhiều lựa chọn thiết kế khác nhau, nhưng vẫn còn thiếu sự xác thực có hệ thống để hỗ trợ các thiết kế này. Nghiên cứu này phân tích các lựa chọn thiết kế khác nhau ảnh hưởng đến hiệu suất VG của MLLM sử dụng LLaVA-1.5. Thông qua việc khám phá các mô hình VG trong MLLM và nghiên cứu cắt bỏ thiết kế thực tế thị giác, chúng tôi đề xuất một phương pháp để tối ưu hóa hiệu suất VG. Kết quả là, chúng tôi đạt được mức tăng hiệu suất +5,6%, +6,9% và +7,0% trên RefCOCO/+/g so với LLaVA-1.5.