Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LIRA: Suy ra phân đoạn trong các mô hình đa phương thức lớn với sự hỗ trợ của vùng xen kẽ cục bộ

Created by
  • Haebom

Tác giả

Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai

Phác thảo

Bài báo này đề xuất LIRA, một khuôn khổ mới để cải thiện độ chính xác của các mô hình đa phương thức quy mô lớn (LMM). Mặc dù LMM vượt trội về khả năng phân đoạn và hiểu biết, chúng vẫn gặp phải hai hạn chế: phân đoạn không chính xác và ảo giác. LIRA khắc phục những hạn chế này bằng cách tận dụng mối quan hệ bổ sung giữa hiểu biết thị giác và phân đoạn. Thành phần chính của nó, Bộ trích xuất Đặc trưng Tăng cường Ngữ nghĩa (SEFE), kết hợp các đặc trưng ngữ nghĩa và cấp độ pixel để cải thiện suy luận thuộc tính đối tượng và cho phép phân đoạn chính xác hơn. Một thành phần khác, Ghép nối Thị giác Cục bộ Interleaved (ILVC), trích xuất các đặc trưng cục bộ dựa trên mặt nạ phân đoạn và sau đó tự động hồi quy tạo ra các mô tả cục bộ, cung cấp khả năng giám sát chi tiết để giảm thiểu ảo giác. Để định lượng mối tương quan giữa độ chính xác phân đoạn đối tượng và ý nghĩa tiềm ẩn liên quan của các mã thông báo, chúng tôi giới thiệu bộ dữ liệu Đánh giá Thuộc tính (AttrEval). Kết quả thử nghiệm cho thấy LIRA đạt được hiệu suất tiên tiến trên cả hai nhiệm vụ phân đoạn và hiểu biết.

Takeaways, Limitations

Takeaways:
Một cách tiếp cận mới để giải quyết vấn đề phân đoạn không chính xác và hiểu biết ảo giác của LMM được trình bày.
Cải thiện độ chính xác phân đoạn và khả năng hiểu với SEFE và ILVC.
Chúng tôi nghiên cứu mối tương quan giữa độ chính xác phân đoạn đối tượng và các ý nghĩa liên quan tiềm ẩn và trình bày tập dữ liệu AttrEval.
ĐạT được hiệu suất tiên tiến nhất trong nhiều nhiệm vụ phân đoạn và hiểu biết.
Limitations:
Cần phải xác nhận thêm về quy mô và hiệu suất tổng quát của tập dữ liệu AttrEval được trình bày.
Những cải tiến về hiệu suất của LIRA có thể chỉ giới hạn ở các tập dữ liệu hoặc tác vụ cụ thể.
Cần phải phân tích chi phí tính toán và độ phức tạp của khuôn khổ LIRA.
👍