본 논문은 컴퓨터 비전에서 이미지로부터 구조화된 의미적 요약을 추출하는 상황 인식(Scene Recognition, SR) 작업에 초점을 맞추고 있습니다. 기존의 SR 방법들이 동사 분류를 단일 레이블 문제로 다루는 것과 달리, 본 논문은 하나의 이미지가 여러 동사 범주로 설명될 수 있는 모호성을 지적합니다. 이를 해결하기 위해 동사 분류를 다중 레이블 문제로 재정의하고, 특히 단일 양성 다중 레이블 학습(SPMLL) 문제로 접근하는 새로운 관점을 제시합니다. 대규모 데이터셋에 대한 완전한 다중 레이블 주석의 어려움을 고려하여 SPMLL 문제를 해결하기 위해 그래프 신경망을 활용하여 레이블 상관관계를 포착하고 적대적 훈련을 통해 의사결정 경계를 최적화하는 Graph Enhanced Verb Multilayer Perceptron (GE-VerbMLP)을 개발했습니다. 실제 데이터셋에 대한 광범위한 실험을 통해 제안된 방법이 기존의 top-1 및 top-5 정확도 지표에서는 경쟁력을 유지하면서 MAP(Mean Average Precision) 지표에서 3% 이상의 향상을 달성함을 보여줍니다. 또한, 다중 레이블 설정에서 모델 성능을 공정하게 평가하기 위한 포괄적인 다중 레이블 평가 벤치마크를 제시합니다.