Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Swin-TUNA: Một phương pháp PEFT mới để phân đoạn hình ảnh thực phẩm chính xác

Created by
  • Haebom

Tác giả

Haotian Chen, Zhiyong Xiao

Phác thảo

Bài báo này nhấn mạnh tầm quan trọng của các kỹ thuật phân đoạn ngữ nghĩa hiệu quả trong lĩnh vực xử lý ảnh thực phẩm và đề xuất một nghiên cứu để giải quyết những khó khăn trong việc triển khai thực tế do yêu cầu tài nguyên tính toán cao và số lượng lớn các tham số của các mô hình dựa trên Transformer quy mô lớn hiện có (ví dụ: FoodSAM). Chúng tôi giới thiệu mô-đun Bộ điều hợp có thể điều chỉnh (Swin-TUNA), một phương pháp Tinh chỉnh hiệu quả tham số (PEFT) tích hợp các bộ điều hợp có thể học được đa quy mô vào kiến trúc Transformer của Swin. Swin-TUNA đạt được khả năng phân đoạn ảnh thực phẩm hiệu suất cao chỉ với 4% các tham số được cập nhật. Để giải quyết sự khác biệt về tính năng giữa mạng nông và mạng sâu, chúng tôi thiết kế các phép tích chập có thể tách rời trong các ánh xạ chiều sâu và chiều của các quy mô khác nhau và một cơ chế thích ứng tính năng phân cấp kết hợp chiến lược cân bằng động cho các tính năng không liên quan đến tác vụ và các tính năng cụ thể của tác vụ là sự đổi mới chính. Mô hình này đạt được mIoU lần lượt là 50,56% và 74,94% trên các tập dữ liệu FoodSeg103 và UECFoodPix Complete, vượt trội hơn mô hình FoodSAM được tham số hóa hoàn toàn với mức giảm 98,7% (8,13 triệu) về số lượng tham số. Mô hình cũng cho thấy khả năng hội tụ nhanh hơn và khả năng khái quát hóa mạnh hơn trong môi trường dữ liệu thấp.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một mô hình phân đoạn hình ảnh thực phẩm nhẹ khắc phục được những hạn chế của các mô hình quy mô lớn hiện có.
Cho phép phân đoạn hình ảnh thực phẩm hiệu suất cao ngay cả trong môi trường hạn chế về tài nguyên.
Nó cho thấy hiệu suất và khả năng tổng quát tuyệt vời ngay cả trong môi trường dữ liệu thấp.
Chứng minh tính hiệu quả của phương pháp điều chỉnh hiệu quả tham số (PEFT).
Limitations:
Hiệu suất của mô hình đề xuất là kết quả của một tập dữ liệu cụ thể và hiệu suất tổng quát trên các tập dữ liệu hoặc lĩnh vực ứng dụng khác cần được xác minh thêm.
Cần phải tối ưu hóa và xác thực thêm để ứng dụng trong môi trường công nghiệp thực tế.
ĐáNh giá độ tin cậy cho các loại hình ảnh thực phẩm khác nhau có thể còn thiếu sót.
👍