Este artículo se centra en la tarea de Reconocimiento de Escenas (SR) en visión artificial, que extrae resúmenes semánticos estructurados de imágenes. A diferencia de los métodos de SR existentes, que tratan la clasificación verbal como un problema de etiqueta única, este artículo aborda la ambigüedad de que una sola imagen pueda describirse mediante múltiples categorías verbales. Para abordar esta cuestión, redefinimos la clasificación verbal como un problema de múltiples etiquetas, específicamente, el problema de Aprendizaje Único Positivo Multietiqueta (SPMLL). Dados los desafíos de lograr una anotación multietiqueta completa para conjuntos de datos a gran escala, desarrollamos el Perceptrón Multicapa de Verbos Mejorado por Gráficos (GE-VerbMLP), que utiliza redes neuronales de grafos para capturar correlaciones de etiquetas y optimizar los límites de decisión mediante entrenamiento adversarial. Amplios experimentos con conjuntos de datos reales demuestran que el método propuesto logra una mejora de más del 3% en la Precisión Media Promedio (MAP), manteniendo la competitividad en las métricas de precisión convencionales de los primeros 1 y los primeros 5 puestos. Además, presentamos un completo punto de referencia de evaluación multietiqueta para evaluar de forma justa el rendimiento del modelo en entornos multietiqueta.