Bài báo này đề xuất LIRA, một khuôn khổ mới để cải thiện độ chính xác của các mô hình đa phương thức quy mô lớn (LMM). Mặc dù LMM vượt trội về khả năng phân đoạn và hiểu biết, chúng vẫn gặp phải hai hạn chế: phân đoạn không chính xác và ảo giác. LIRA khắc phục những hạn chế này bằng cách tận dụng mối quan hệ bổ sung giữa hiểu biết thị giác và phân đoạn. Thành phần chính của nó, Bộ trích xuất Đặc trưng Tăng cường Ngữ nghĩa (SEFE), kết hợp các đặc trưng ngữ nghĩa và cấp độ pixel để cải thiện suy luận thuộc tính đối tượng và cho phép phân đoạn chính xác hơn. Một thành phần khác, Ghép nối Thị giác Cục bộ Interleaved (ILVC), trích xuất các đặc trưng cục bộ dựa trên mặt nạ phân đoạn và sau đó tự động hồi quy tạo ra các mô tả cục bộ, cung cấp khả năng giám sát chi tiết để giảm thiểu ảo giác. Để định lượng mối tương quan giữa độ chính xác phân đoạn đối tượng và ý nghĩa tiềm ẩn liên quan của các mã thông báo, chúng tôi giới thiệu bộ dữ liệu Đánh giá Thuộc tính (AttrEval). Kết quả thử nghiệm cho thấy LIRA đạt được hiệu suất tiên tiến trên cả hai nhiệm vụ phân đoạn và hiểu biết.