Bài báo này tập trung vào nhiệm vụ Nhận dạng Cảnh (Scene Recognition - SR) trong thị giác máy tính, trích xuất các tóm tắt ngữ nghĩa có cấu trúc từ hình ảnh. Không giống như các phương pháp SR hiện có, vốn coi phân loại động từ là một bài toán nhãn đơn, bài báo này đề cập đến sự mơ hồ khi một hình ảnh duy nhất có thể được mô tả bằng nhiều loại động từ. Để giải quyết vấn đề này, chúng tôi định nghĩa lại phân loại động từ là một bài toán đa nhãn, cụ thể là bài toán Học Đa Nhãn Tích Cực Đơn (SPMLL). Trước những thách thức trong việc đạt được chú thích đa nhãn hoàn chỉnh cho các tập dữ liệu quy mô lớn, chúng tôi phát triển Graph Enhanced Verb Multilayer Perceptron (GE-VerbMLP), sử dụng mạng nơ-ron đồ thị để nắm bắt các tương quan nhãn và tối ưu hóa ranh giới quyết định thông qua huấn luyện đối kháng. Các thí nghiệm mở rộng trên các tập dữ liệu thực tế chứng minh rằng phương pháp được đề xuất đạt được hơn 3% cải thiện về Độ chính xác Trung bình Trung bình (MAP) trong khi vẫn duy trì khả năng cạnh tranh trong các chỉ số độ chính xác top 1 và top 5 thông thường. Hơn nữa, chúng tôi trình bày một chuẩn mực đánh giá đa nhãn toàn diện để đánh giá hiệu suất mô hình một cách công bằng trong các thiết lập đa nhãn.