Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Más allá de las imágenes: Fusión adaptativa de datos visuales y textuales para la clasificación de alimentos

Created by
  • Haebom

Autor

Prateek Mittal, Puneet Goyal, Joohi Chauhan

Describir

Este artículo presenta un novedoso marco de reconocimiento multimodal de alimentos que combina modalidades visuales y textuales para mejorar la precisión y robustez del reconocimiento de alimentos. El enfoque propuesto utiliza una estrategia dinámica de fusión multimodal que integra de forma adaptativa las características de la entrada visual unimodal y los metadatos textuales complementarios. Este mecanismo de fusión está diseñado para maximizar el uso del contenido informativo, a la vez que mitiga el impacto negativo de la falta o inconsistencia de datos de modalidad. Una evaluación rigurosa del conjunto de datos UPMC Food-101 demuestra una precisión de clasificación unimodal del 73,60 % para imágenes y del 88,84 % para texto. Al fusionar ambas modalidades, el modelo alcanza una precisión del 97,84 %, superando a varios métodos de vanguardia. Un exhaustivo análisis experimental demuestra la robustez, adaptabilidad y eficiencia computacional de la configuración propuesta, destacando su aplicabilidad práctica en escenarios reales de reconocimiento multimodal de alimentos.

Takeaways, Limitations

Takeaways:
Mejora de la precisión en el reconocimiento de alimentos (97,84%) mediante la fusión efectiva de modalidades visuales y textuales.
Robustez frente a datos faltantes o inconsistentes.
Prueba de la eficacia y adaptabilidad de una estrategia de fusión multimodal dinámica.
Presentando posibilidades de aplicación práctica.
Limitations:
La evaluación se realizó solo en el conjunto de datos UPMC Food-101, por lo que se necesita una mayor validación de la generalización.
Se necesita más investigación para determinar si las configuraciones optimizadas para un conjunto de datos específico pueden garantizar el mismo rendimiento en otros conjuntos de datos.
Es necesario evaluar el rendimiento de generalización para varios tipos de metadatos de texto.
👍