Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El demonio está en la ambigüedad: Revisando el reconocimiento de situaciones con el aprendizaje único positivo de múltiples etiquetas

Created by
  • Haebom

Autor

Yiming Lin, Yuchen Niu, Shang Wang, Kaizhu Huang, Qiufeng Wang, Xiao-Bo Jin

Describir

Este artículo se centra en la tarea de Reconocimiento de Escenas (SR) en visión artificial, que extrae resúmenes semánticos estructurados de imágenes. A diferencia de los métodos de SR existentes, que tratan la clasificación verbal como un problema de etiqueta única, este artículo aborda la ambigüedad de que una sola imagen pueda describirse mediante múltiples categorías verbales. Para abordar esta cuestión, redefinimos la clasificación verbal como un problema de múltiples etiquetas, específicamente, el problema de Aprendizaje Único Positivo Multietiqueta (SPMLL). Dados los desafíos de lograr una anotación multietiqueta completa para conjuntos de datos a gran escala, desarrollamos el Perceptrón Multicapa de Verbos Mejorado por Gráficos (GE-VerbMLP), que utiliza redes neuronales de grafos para capturar correlaciones de etiquetas y optimizar los límites de decisión mediante entrenamiento adversarial. Amplios experimentos con conjuntos de datos reales demuestran que el método propuesto logra una mejora de más del 3% en la Precisión Media Promedio (MAP), manteniendo la competitividad en las métricas de precisión convencionales de los primeros 1 y los primeros 5 puestos. Además, presentamos un completo punto de referencia de evaluación multietiqueta para evaluar de forma justa el rendimiento del modelo en entornos multietiqueta.

Takeaways, Limitations

Takeaways:
Presentamos la importancia de la clasificación de verbos con múltiples etiquetas considerando la ambigüedad de las imágenes y proponemos una nueva perspectiva llamada aprendizaje de múltiples etiquetas único-positivo (SPMLL).
Logramos mejoras de rendimiento en problemas de clasificación de verbos de múltiples etiquetas utilizando el modelo GE-VerbMLP (mejora de más del 3 % en MAP).
Proporcionamos un nuevo punto de referencia de evaluación para configuraciones de múltiples etiquetas.
Limitations:
El enfoque SPMLL propuesto asume la dificultad de lograr una anotación multietiqueta completa en conjuntos de datos a gran escala. Esta dificultad en la anotación de datos aún puede limitar su aplicación práctica.
Las mejoras de rendimiento del modelo GE-VerbMLP probablemente estén limitadas a un conjunto de datos específico, y se necesita más investigación para determinar su rendimiento de generalización en otros conjuntos de datos o situaciones.
Es necesaria una mayor validación de la generalidad y versatilidad del parámetro de evaluación propuesto.
👍