この論文は、食品画像処理の分野における効率的なセマンティックセグメンテーション技術の重要性を強調し、従来の大規模トランスフォーマーベースのモデル(FoodSAMなど)の高い計算リソース要件と多くのパラメータ数による実際の展開の難しさを解決するために提案された研究です。 Swin Transformer構造にマルチスケール学習可能アダプターを組み込んだパラメトリック効果的なファインチューニング(PEFT)方式であるTUNable Adapter module(Swin-TUNA)を紹介します. Swin-TUNAは、パラメータの4%のみを更新して、高性能食品画像分割を達成します。浅いネットワークと深いネットワーク間の特徴の違いを解決するために、様々なスケールの深さと次元マッピングから分離可能な合成積を設計し、タスクとは無関係の特徴とタスク固有の特徴の動的バランス戦略を組み合わせた階層的特徴適応メカニズムがコアイノベーションです。 FoodSeg103 および UECFoodPix Complete データセットでそれぞれ 50.56% および 74.94% の mIoU を達成し、パラメータ数を 98.7% (8.13M) 減少させながら完全パラメータ化された FoodSAM モデルを凌駕する性能を示しました。また、少ないデータ環境でより速い収束と強力な一般化能力を示しています。