본 논문은 식품 이미지 처리 분야에서 효율적인 의미론적 분할 기술의 중요성을 강조하며, 기존의 대규모 Transformer 기반 모델(예: FoodSAM)의 높은 계산 자원 요구량과 많은 파라미터 수로 인한 실제 배포의 어려움을 해결하기 위해 제안된 연구입니다. Swin Transformer 구조에 다중 스케일 학습 가능 어댑터를 통합하는 Parameter Efficient Fine-Tuning (PEFT) 방법인 TUNable Adapter module (Swin-TUNA)을 소개합니다. Swin-TUNA는 파라미터의 4%만 업데이트하여 고성능 식품 이미지 분할을 달성합니다. 얕은 네트워크와 깊은 네트워크 간의 특징 차이를 해결하기 위해 다양한 스케일의 깊이 및 차원 매핑에서 분리 가능한 합성곱을 설계하고, 작업과 무관한 특징과 작업 특정 특징에 대한 동적 균형 전략을 결합한 계층적 특징 적응 메커니즘이 핵심 혁신입니다. FoodSeg103 및 UECFoodPix Complete 데이터셋에서 각각 50.56% 및 74.94%의 mIoU를 달성하여, 파라미터 수를 98.7% (8.13M) 감소시키면서 완전 파라미터화된 FoodSAM 모델을 능가하는 성능을 보였습니다. 또한, 적은 데이터 환경에서 더 빠른 수렴과 강력한 일반화 능력을 보여줍니다.