Bài báo này nhấn mạnh tầm quan trọng của việc đánh giá khả năng hiểu đa phương thức cho các mô hình dựa trên nghe nhìn, đồng thời chỉ ra những hạn chế của bộ dữ liệu VGGSound hiện có (gán nhãn không đầy đủ, các lớp chồng chéo một phần và sự không đồng nhất phương thức). Chúng tôi chứng minh rằng những hạn chế này có thể làm sai lệch việc đánh giá khả năng nghe và nhìn, và đề xuất VGGSounder, một bộ kiểm tra đa nhãn được chú thích lại toàn diện, để giải quyết những hạn chế này. VGGSounder cung cấp các chú thích phương thức chi tiết, cho phép phân tích hiệu suất cụ thể theo từng phương thức. Chúng tôi cũng chỉ ra những hạn chế của mô hình bằng cách phân tích sự suy giảm hiệu suất của mô hình khi có thêm các phương thức đầu vào, sử dụng một thước đo nhầm lẫn phương thức mới.