Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AVG-LLaVA: Một mô hình đa phương thức lớn hiệu quả với độ chi tiết trực quan thích ứng

Created by
  • Haebom

Tác giả

Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su

Phác thảo

Để Giải quyết vấn đề tạo ra một số lượng lớn mã thông báo trực quan trong xử lý hình ảnh có độ phân giải cao, bài báo này đề xuất AVG-LLaVA, một mô hình đa phương thức quy mô lớn (LMM) có khả năng lựa chọn độ chi tiết trực quan một cách thích ứng dựa trên hình ảnh và chỉ thị đầu vào. AVG-LLaVA tạo ra các mã thông báo trực quan có nhiều độ chi tiết khác nhau thông qua nhiều lớp gộp và lựa chọn độ chi tiết phù hợp bằng cách sử dụng bộ định tuyến độ chi tiết trực quan bao gồm một Transformer, một MLP và một lớp cử tri. Hơn nữa, chúng tôi trình bày RGLF, một phương pháp đào tạo mới giúp căn chỉnh các dự đoán của bộ định tuyến với các tùy chọn của LMM mà không cần chú thích thủ công bổ sung. Kết quả thử nghiệm cho thấy AVG-LLaVA đạt hiệu suất tuyệt vời trên 11 điểm chuẩn, giảm đáng kể số lượng mã thông báo trực quan và cải thiện tốc độ suy luận (ví dụ: giảm 85,3% mã thông báo trực quan và tăng 2,53 lần tốc độ suy luận trên điểm chuẩn AI2D).

Takeaways, Limitations

Takeaways:
Một phương pháp mới nhằm giải quyết hiệu quả vấn đề về mã thông báo hình ảnh quá mức phát sinh khi xử lý hình ảnh có độ phân giải cao được trình bày.
ĐIều chỉnh độ chi tiết trực quan một cách thích ứng dựa trên hình ảnh đầu vào và hướng dẫn để cải thiện hiệu suất và hiệu quả.
Chúng tôi trình bày phương pháp đào tạo RGLF giúp cải thiện khả năng lựa chọn độ chi tiết trực quan của mô hình mà không cần dữ liệu bổ sung.
Thể hiện hiệu suất và hiệu quả vượt trội so với các mẫu hiện có trong nhiều tiêu chuẩn khác nhau.
Limitations:
Cần nghiên cứu thêm để tìm hiểu hiệu suất tổng quát của phương pháp đào tạo RGLF được đề xuất và khả năng áp dụng của nó cho các LMM khác.
Cần phải đánh giá kỹ lưỡng nhiều loại hình ảnh có độ phân giải cao và hướng dẫn phức tạp.
Cần phải phân tích độ phức tạp và chi phí tính toán của bộ định tuyến độ chi tiết trực quan.
👍