Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bộ chuyển đổi mặt nạ có thể chuyển nhượng: Phân đoạn ngữ nghĩa xuyên miền với ước tính khả năng chuyển nhượng thích ứng theo vùng
Created by
Haebom
Tác giả
Jianhua Liu, Zhengyu Li, Yanru Wu, Jingge Wang, Yang Tan, Ruizhe Zhao, Guan Wang, Yang Li
Phác thảo
Bài báo này đề xuất một kỹ thuật thích ứng cấp vùng để giải quyết tình trạng suy giảm hiệu suất do sự khác biệt giữa các miền trong phân đoạn ngữ nghĩa bằng cách sử dụng Vision Transformers (ViT). Để khắc phục những hạn chế của các kỹ thuật thích ứng toàn cục hoặc cấp độ bản vá hiện có, chúng tôi phân đoạn hình ảnh động thành các vùng nhất quán về mặt cấu trúc và ngữ nghĩa bằng cách sử dụng Adaptive Cluster-based Transferability Estimator (ACTE) và đánh giá khả năng thích ứng của từng vùng. Sau đó, mô-đun Transferable Masked Attention (TMA) tích hợp các bản đồ khả năng thích ứng theo vùng cụ thể vào cơ chế chú ý của ViT, ưu tiên thích ứng ở các vùng có khả năng thích ứng thấp và độ bất định ngữ nghĩa cao. Đánh giá toàn diện trên 20 cặp miền chéo cho thấy sự cải thiện trung bình 2% MIoU so với các phương pháp hiện có.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi trình bày một phương pháp mới để giải quyết hiệu quả tình trạng suy giảm hiệu suất của phân đoạn ngữ nghĩa dựa trên ViTs do sự khác biệt giữa các miền thông qua việc điều chỉnh cấp miền.
◦
Phân tích hiệu quả tiềm năng cung cấp dịch vụ theo khu vực thông qua các mô-đun ACTE và TMA và phản ánh tiềm năng này trong quá trình thích ứng.
◦
Xác minh hiệu suất tuyệt vời thông qua kết quả thử nghiệm cho nhiều cặp miền chéo khác nhau.
◦
Cung cấp mã nguồn mở.
•
Limitations:
◦
Mô-đun ACTE có thể tốn nhiều tài nguyên tính toán.
◦
Cải thiện hiệu suất có thể bị giới hạn đối với một số tổ hợp miền nhất định.
◦
Cần có thêm các thử nghiệm trên các kiến trúc và tập dữ liệu khác nhau.