Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này chỉ ra rằng nghiên cứu mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện tại chỉ tập trung vào hiểu biết thị giác chung và bỏ qua khả năng tích hợp thông tin văn bản liên quan đến đối tượng để thực hiện hiểu biết đa phương thức nhận thức ngữ cảnh (hiểu biết đa phương thức nhận thức ngữ cảnh cấp miền, RCMU). Để giải quyết vấn đề này, chúng tôi định nghĩa một tác vụ RCMU yêu cầu tích hợp nội dung hình ảnh và thông tin văn bản của một vùng hoặc đối tượng để phản hồi các lệnh của người dùng. Chúng tôi đề xuất một phương pháp phối hợp hướng dẫn thị giác nhận thức ngữ cảnh cấp miền (RCVIT) tích hợp thông tin đối tượng vào đầu vào của mô hình, cho phép tọa độ hộp giới hạn kết nối hiệu quả nội dung hình ảnh và văn bản của đối tượng. Hơn nữa, chúng tôi giới thiệu bộ dữ liệu RCMU, một bộ dữ liệu phối hợp hướng dẫn thị giác quy mô lớn bao gồm nhiều tác vụ RCMU khác nhau, và đề xuất RC&P-Bench, một chuẩn mực toàn diện để đánh giá hiệu suất của MLLM trên RCMU và các tác vụ hiểu biết cá nhân hóa đa phương thức. Chúng tôi cũng đề xuất các số liệu đánh giá không tham chiếu để đánh giá toàn diện và chi tiết các giải thích hình ảnh nhận thức ngữ cảnh cấp miền. Cuối cùng, chúng tôi phát triển mô hình RC-Qwen2-VL bằng cách áp dụng nó vào các tập dữ liệu RCVIT và RCMU. Kết quả thực nghiệm chứng minh rằng mô hình đạt hiệu suất tuyệt vời trên nhiều tác vụ RCMU và thể hiện các ứng dụng thành công trong RAG đa phương thức và các cuộc trò chuyện cá nhân hóa. Dữ liệu, mô hình và điểm chuẩn có sẵn trong https://github.com/hongliang-wei/RC-MLLM .
Chúng tôi trình bày một thử thách mới mang tên RCMU, tích hợp thông tin hình ảnh và văn bản của các đối tượng và đề xuất phương pháp RCVIT để giải quyết vấn đề này.
◦
Chúng tôi đã cung cấp tập dữ liệu RCMU, một tập dữ liệu quy mô lớn cho các nhiệm vụ của RCMU và RC&P-Bench, một chuẩn mực để đánh giá hiệu suất.
◦
Chúng tôi cải thiện việc đánh giá mô tả hình ảnh có nhận thức theo ngữ cảnh ở cấp độ miền bằng cách đề xuất một số liệu đánh giá không tham chiếu.
◦
Mô hình RC-Qwen2-VL đã chứng minh hiệu suất tuyệt vời trong các nhiệm vụ RCMU và các ứng dụng đa phương thức.
•
Limitations:
◦
Có thể cần phải xem xét thêm về quy mô và tính đa dạng của tập dữ liệu RCMU.
◦
Có thể cần thêm các thí nghiệm để đánh giá hiệu suất tổng quát của phương pháp RCVIT được đề xuất.
◦
Có thể thiếu thảo luận về Limitations đối với các số liệu đánh giá mà không có tài liệu tham khảo.
◦
Chỉ có kết quả cho một mô hình cụ thể (Qwen2-VL) được trình bày, do đó cần nghiên cứu thêm để xác định khả năng khái quát hóa cho các mô hình khác.