Este artículo enfatiza la importancia de las técnicas eficientes de segmentación semántica en el campo del procesamiento de imágenes de alimentos y propone un estudio para abordar las dificultades de implementación práctica debido al alto requerimiento de recursos computacionales y la gran cantidad de parámetros de los modelos existentes basados en Transformers a gran escala (p. ej., FoodSAM). Presentamos el módulo TUNable Adapter (Swin-TUNA), un método de ajuste fino eficiente de parámetros (PEFT) que integra adaptadores multiescala aprendibles en la arquitectura Swin Transformer. Swin-TUNA logra una segmentación de imágenes de alimentos de alto rendimiento con solo el 4% de los parámetros actualizados. Para abordar las diferencias de características entre redes superficiales y profundas, diseñamos convoluciones separables en mapeos de profundidad y dimensión de diferentes escalas. La innovación clave es un mecanismo de adaptación jerárquica de características que combina una estrategia de equilibrio dinámico para características irrelevantes y específicas de la tarea. Alcanza un mIoU del 50,56 % y el 74,94 % en los conjuntos de datos FoodSeg103 y UECFoodPix Complete, respectivamente, superando al modelo FoodSAM totalmente parametrizado con una reducción del 98,7 % (8,13 millones) en el número de parámetros. Además, demuestra una convergencia más rápida y una mayor capacidad de generalización en entornos con pocos datos.