Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐIều chế sự chú ý động tần số cho dự đoán dày đặc

Created by
  • Haebom

Tác giả

Linwei Chen, Lin Gu, Ying Fu

Phác thảo

Trong bài báo này, chúng tôi đề xuất một kỹ thuật điều chế chú ý động tần số (FDAM) để giải quyết vấn đề mất tần số, một vấn đề lớn của các bộ biến đổi thị giác (ViT). Cơ chế chú ý của các ViT hiện có hoạt động như một bộ lọc thông thấp, gây mất thông tin chi tiết và kết cấu, trong khi FDAM điều chế trực tiếp đáp ứng tần số của ViT thông qua hai kỹ thuật: đảo ngược chú ý (AttInv), tạo ra bộ lọc tần số cao bằng cách đảo ngược ma trận chú ý, và điều chỉnh tỷ lệ động tần số (FreqScale), trọng số hóa các thành phần tần số khác nhau. Kỹ thuật này chứng minh sự cải thiện hiệu suất trong nhiều mô hình như SegFormer, DeiT và MaskDINO trong các tác vụ như phân đoạn ngữ nghĩa, phát hiện đối tượng và phân đoạn thực thể, và đạt được hiệu suất tiên tiến nhất, đặc biệt là trong lĩnh vực phát hiện cảm biến từ xa.

Takeaways, Limitations

Takeaways:
FDAM, một kỹ thuật mới để giải quyết hiệu quả vấn đề mất tần số của ViTs, được trình bày
Kiểm soát chính xác đáp ứng tần số của ViT thông qua đảo ngược sự chú ý (AttInv) và điều chỉnh tần số động (FreqScale).
Cải thiện hiệu suất nhất quán trên nhiều mô hình và tác vụ chuyển đổi tầm nhìn khác nhau
ĐạT được hiệu suất tiên tiến trong phát hiện cảm biến từ xa
ĐảM bảo khả năng tái tạo thông qua mã mở
Limitations:
Có khả năng là tác động của FDAM có thể bị thiên lệch đối với một số mô hình hoặc nhiệm vụ nhất định (cần có thêm các thí nghiệm và phân tích).
Tiềm năng tăng chi phí tính toán (cần nghiên cứu các phương pháp triển khai hiệu quả)
Cần có thêm các thí nghiệm trên các tập dữ liệu và siêu tham số khác nhau.
👍