Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mở khóa tiềm năng của MLLM trong phân đoạn biểu thức tham chiếu thông qua bộ giải mã mặt nạ nhẹ

Created by
  • Haebom

Tác giả

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

Phác thảo

Bài báo này đề xuất MLLMSeg, một phương pháp tiếp cận mới cho bài toán Phân đoạn Biểu diễn Tham chiếu (RES). Các phương pháp RES hiện có đánh đổi giữa hiệu suất và chi phí, hoặc sử dụng Mô hình Phân đoạn Bất kỳ (SAM) được tham số hóa mạnh hoặc sử dụng các đường ống nhẹ không có SAM, làm giảm độ chính xác. MLLMSeg đạt được hiệu suất cao mà không cần bộ mã hóa thị giác bổ sung bằng cách tận dụng các đặc điểm chi tiết thị giác đã được nhúng trong bộ mã hóa thị giác của Mô hình Quy mô Lớn Đa phương thức (MLLM). Dự đoán mặt nạ chính xác đạt được thông qua mô-đun hợp nhất đặc điểm ngữ nghĩa và tăng cường chi tiết (DSFF) kết hợp thông tin chi tiết và ngữ nghĩa, cùng với bộ giải mã mặt nạ nhẹ (34 triệu tham số). Kết quả thử nghiệm chứng minh rằng MLLMSeg vượt trội hơn cả phương pháp dựa trên SAM và phương pháp không có SAM, tạo nên sự cân bằng tốt giữa hiệu suất và chi phí.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng bằng cách tận dụng hiệu quả khả năng chi tiết hình ảnh vốn có trong bộ mã hóa thị giác của MLLM, hiệu suất vượt trội có thể đạt được mà không cần bộ mã hóa thị giác bổ sung.
Cải thiện độ chính xác bằng cách kết hợp hiệu quả thông tin chi tiết và thông tin ngữ nghĩa thông qua mô-đun DSFF.
Duy trì hiệu suất cao trong khi giảm chi phí tính toán thông qua bộ giải mã mặt nạ nhẹ.
ĐạT hiệu suất vượt trội hơn so với các phương pháp sử dụng SAM và không sử dụng SAM.
Limitations:
Hiệu suất của MLLMSeg có thể phụ thuộc vào hiệu suất của MLLM được sử dụng.
ĐượC tối ưu hóa cho một MLLM cụ thể, hiệu suất có thể giảm khi áp dụng cho các MLLM khác.
Hiệu suất tổng quát hóa cho các bối cảnh phức tạp hoặc biểu thức tham chiếu mơ hồ cần được nghiên cứu thêm.
👍