Bài báo này nhấn mạnh tầm quan trọng của các kỹ thuật phân đoạn ngữ nghĩa hiệu quả trong lĩnh vực xử lý ảnh thực phẩm và đề xuất một nghiên cứu để giải quyết những khó khăn trong việc triển khai thực tế do yêu cầu tài nguyên tính toán cao và số lượng lớn các tham số của các mô hình dựa trên Transformer quy mô lớn hiện có (ví dụ: FoodSAM). Chúng tôi giới thiệu mô-đun Bộ điều hợp có thể điều chỉnh (Swin-TUNA), một phương pháp Tinh chỉnh hiệu quả tham số (PEFT) tích hợp các bộ điều hợp có thể học được đa quy mô vào kiến trúc Transformer của Swin. Swin-TUNA đạt được khả năng phân đoạn ảnh thực phẩm hiệu suất cao chỉ với 4% các tham số được cập nhật. Để giải quyết sự khác biệt về tính năng giữa mạng nông và mạng sâu, chúng tôi thiết kế các phép tích chập có thể tách rời trong các ánh xạ chiều sâu và chiều của các quy mô khác nhau và một cơ chế thích ứng tính năng phân cấp kết hợp chiến lược cân bằng động cho các tính năng không liên quan đến tác vụ và các tính năng cụ thể của tác vụ là sự đổi mới chính. Mô hình này đạt được mIoU lần lượt là 50,56% và 74,94% trên các tập dữ liệu FoodSeg103 và UECFoodPix Complete, vượt trội hơn mô hình FoodSAM được tham số hóa hoàn toàn với mức giảm 98,7% (8,13 triệu) về số lượng tham số. Mô hình cũng cho thấy khả năng hội tụ nhanh hơn và khả năng khái quát hóa mạnh hơn trong môi trường dữ liệu thấp.