Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MoCHA: Lý luận ngôn ngữ thị giác nâng cao với kết nối MoE và sự chú ý của nhóm phân cấp

작성자
  • Haebom

Tác giả

Yuqi Pang, Bowen Yang, Yun Cao, Rong Fan, Xiaoyu Li, Chen He

Phác thảo

MoCHA là một khuôn khổ trực quan mới được đề xuất để giải quyết chi phí đào tạo và suy luận cao của các mô hình ngôn ngữ quy mô lớn về thị giác (VLLM) và khó khăn trong việc trích xuất các chi tiết trực quan. Nó tích hợp bốn xương sống thị giác: CLIP, SigLIP, DINOv2 và ConvNeXt để trích xuất các đặc điểm trực quan bổ sung. Mô-đun kết nối hỗn hợp chuyên gia thưa thớt (MoECs) tự động lựa chọn các chuyên gia phù hợp với các chiều trực quan khác nhau. Hơn nữa, nó sử dụng Chú ý nhóm phân cấp (HGA) và các chiến lược gating thích ứng để giảm thiểu thông tin trực quan dư thừa hoặc không được sử dụng hết được mã hóa bởi mô-đun MoECs. MoCHA được đào tạo trên các LLM hàng đầu, chẳng hạn như Phi2-2.7B và Vicuna-7B, và hiệu suất của nó đã được đánh giá trên nhiều điểm chuẩn khác nhau. MoCHA vượt trội hơn các mô hình trọng số mở tiên tiến trên một số tác vụ. Cụ thể, so với CuMo (Mistral-7B), MoCHA (Phi2-2.7B) cho thấy cải thiện 3,25% về khả năng giảm ảo giác trên thang điểm Xử lý hình ảnh dự đoán (POPE) và cải thiện 153 điểm về khả năng hướng dẫn thị giác theo thang điểm Đánh giá đa phương tiện (MME). Các nghiên cứu cắt đốt bổ sung đã xác nhận hiệu quả và độ tin cậy của MoEC và HGA được đề xuất.

Takeaways, Limitations

Takeaways:
Một khuôn khổ mới được trình bày để giải quyết hiệu quả vấn đề chi phí cao của VLLM.
Nâng cao hiệu suất thông qua việc trích xuất đặc điểm hình ảnh bổ sung.
Nâng cao hiệu quả sử dụng thông tin trực quan thông qua các mô-đun MoEC và HGA.
Giảm ảo giác và cải thiện hiệu suất trong việc thực hiện theo hướng dẫn trực quan.
ĐạT được hiệu suất SOTA trên nhiều tiêu chuẩn khác nhau.
Limitations:
Cần nghiên cứu thêm để khám phá khả năng khái quát hóa của khuôn khổ được đề xuất.
Cần đánh giá sự phụ thuộc vào các LLM cụ thể và khả năng tương thích với các LLM khác.
Cần có những đánh giá chuẩn mực toàn diện và đa dạng hơn.
Thiếu giải thích chi tiết về việc điều chỉnh tham số của MoEC và mô-đun HGA.
👍