Bài báo này đề xuất MLLMSeg, một phương pháp tiếp cận mới cho bài toán Phân đoạn Biểu diễn Tham chiếu (RES). Các phương pháp RES hiện có đánh đổi giữa hiệu suất và chi phí, hoặc sử dụng Mô hình Phân đoạn Bất kỳ (SAM) được tham số hóa mạnh hoặc sử dụng các đường ống nhẹ không có SAM, làm giảm độ chính xác. MLLMSeg đạt được hiệu suất cao mà không cần bộ mã hóa thị giác bổ sung bằng cách tận dụng các đặc điểm chi tiết thị giác đã được nhúng trong bộ mã hóa thị giác của Mô hình Quy mô Lớn Đa phương thức (MLLM). Dự đoán mặt nạ chính xác đạt được thông qua mô-đun hợp nhất đặc điểm ngữ nghĩa và tăng cường chi tiết (DSFF) kết hợp thông tin chi tiết và ngữ nghĩa, cùng với bộ giải mã mặt nạ nhẹ (34 triệu tham số). Kết quả thử nghiệm chứng minh rằng MLLMSeg vượt trội hơn cả phương pháp dựa trên SAM và phương pháp không có SAM, tạo nên sự cân bằng tốt giữa hiệu suất và chi phí.