Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
ĐIều chế tần số không gian cho phân đoạn ngữ nghĩa
Created by
Haebom
Tác giả
Linwei Chen, Ying Fu, Lin Gu, Dezhi Zheng, Jifeng Dai
Phác thảo
Bài báo này chỉ ra rằng mặc dù thông tin tần số cao không gian (ví dụ: kết cấu mịn) góp phần đáng kể vào độ chính xác phân đoạn ngữ nghĩa, các thành phần tần số cao có thể bị răng cưa hoặc méo khi đi qua các lớp lấy mẫu xuống như tích chập sải bước do định lý lấy mẫu Nyquist-Shannon. Để giải quyết vấn đề này, chúng tôi đề xuất một kỹ thuật điều chế tần số không gian (SFM) mới điều chế các đặc điểm tần số cao thành tần số thấp hơn trước khi lấy mẫu xuống và sau đó giải điều chế chúng một lần nữa trong quá trình lấy mẫu lên. Chúng tôi triển khai điều chế thông qua lấy mẫu lại thích ứng (ARS) và thiết kế một tiện ích bổ sung nhẹ giúp mở rộng tín hiệu bằng cách lấy mẫu dày đặc vùng tần số cao và sau đó hạ tần số theo thuộc tính tỷ lệ tần số. Ngoài ra, chúng tôi đề xuất lấy mẫu lại thích ứng đa thang (MSAU) để giải điều chế các đặc điểm đã điều chế và khôi phục thông tin tần số cao thông qua lấy mẫu lại không đồng nhất. Mô-đun này cải thiện khả năng phân đoạn bằng cách khai thác rõ ràng sự tương tác thông tin giữa các vùng được lấy mẫu lại dày đặc và thưa thớt ở nhiều thang độ. Cả hai mô-đun đều có thể được tích hợp liền mạch với nhiều kiến trúc khác nhau, từ mạng nơ-ron tích chập đến bộ biến đổi. Thông qua trực quan hóa và phân tích đặc trưng, chúng tôi xác minh rằng phương pháp đề xuất giảm thiểu hiệu quả hiện tượng răng cưa đồng thời bảo toàn chi tiết ngay cả sau khi giải điều chế. Cuối cùng, chúng tôi mở rộng SFM sang các tác vụ phân loại ảnh, tính mạnh mẽ đối kháng, phân đoạn thể hiện và phân đoạn toàn cảnh để xác minh tính ứng dụng rộng rãi và hiệu quả của SFM. Mã nguồn có thể được tìm thấy tại https://github.com/Linwei-Chen/SFM .
Một kỹ thuật SFM mới được trình bày để giải quyết hiệu quả vấn đề mất thông tin tần số cao xảy ra trong quá trình hạ mẫu.
◦
Giảm hiện tượng răng cưa và méo tiếng của thông tin tần số cao và bảo toàn chi tiết thông qua các mô-đun lấy mẫu lại thích ứng (ARS) và lấy mẫu lại thích ứng đa thang đo (MSAU).
◦
ĐảM bảo khả năng ứng dụng rộng rãi thông qua khả năng tương thích với nhiều kiến trúc khác nhau (CNN, Transformer).
◦
Đã Chứng minh được sự cải thiện hiệu suất trong nhiều tác vụ khác nhau, bao gồm phân loại hình ảnh, tính mạnh mẽ đối nghịch, phân đoạn thể hiện và phân đoạn toàn cảnh.
•
Limitations:
◦
Thiếu phân tích chi tiết về chi phí tính toán và mức sử dụng bộ nhớ của phương pháp đề xuất.
◦
Kết quả thử nghiệm trên nhiều tập dữ liệu khác nhau có thể bị hạn chế.
◦
Thiếu giải thích chi tiết về tối ưu hóa siêu tham số của mô-đun ARS và MSAU.