Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

Created by
  • Haebom

Autor

Haotian Chen, Zhiyong Xiao

Describir

Este artículo enfatiza la importancia de las técnicas eficientes de segmentación semántica en el campo del procesamiento de imágenes de alimentos y propone un estudio para abordar las dificultades de implementación práctica debido al alto requerimiento de recursos computacionales y la gran cantidad de parámetros de los modelos existentes basados en Transformers a gran escala (p. ej., FoodSAM). Presentamos el módulo TUNable Adapter (Swin-TUNA), un método de ajuste fino eficiente de parámetros (PEFT) que integra adaptadores multiescala aprendibles en la arquitectura Swin Transformer. Swin-TUNA logra una segmentación de imágenes de alimentos de alto rendimiento con solo el 4% de los parámetros actualizados. Para abordar las diferencias de características entre redes superficiales y profundas, diseñamos convoluciones separables en mapeos de profundidad y dimensión de diferentes escalas. La innovación clave es un mecanismo de adaptación jerárquica de características que combina una estrategia de equilibrio dinámico para características irrelevantes y específicas de la tarea. Alcanza un mIoU del 50,56 % y el 74,94 % en los conjuntos de datos FoodSeg103 y UECFoodPix Complete, respectivamente, superando al modelo FoodSAM totalmente parametrizado con una reducción del 98,7 % (8,13 millones) en el número de parámetros. Además, demuestra una convergencia más rápida y una mayor capacidad de generalización en entornos con pocos datos.

Takeaways, Limitations

Takeaways:
Presentamos un modelo de segmentación de imágenes de alimentos ligero que supera las limitaciones de los modelos a gran escala existentes.
Permitiendo una segmentación de imágenes de alimentos de alto rendimiento incluso en entornos con recursos limitados.
Demuestra un excelente rendimiento y capacidad de generalización incluso en entornos con pocos datos.
Demostración de la eficacia del método de ajuste fino de parámetros eficientes (PEFT).
Limitations:
El rendimiento del modelo propuesto es el resultado de un conjunto de datos específico, y el rendimiento de generalización en otros conjuntos de datos o áreas de aplicación requiere verificación adicional.
Se requiere optimización y validación adicionales para su aplicación en entornos industriales reales.
Es posible que falten evaluaciones de robustez para diferentes tipos de imágenes de alimentos.
👍