Bài báo này nhấn mạnh rằng mặc dù mạng nơ-ron sâu đã thành công trong việc trở thành mô hình biểu diễn nơ-ron cho hành vi và nhiệm vụ thị giác của con người, nhưng chúng học hỏi về cơ bản khác với học tập của con người và không đạt được khả năng khái quát hóa mạnh mẽ. Một điểm khác biệt quan trọng là kiến thức khái niệm của con người được tổ chức theo thứ bậc, từ chi tiết đến vĩ mô, trong khi biểu diễn mô hình không thể nắm bắt chính xác tất cả các cấp độ trừu tượng này. Để giải quyết vấn đề này, chúng tôi đào tạo một mô hình giáo viên để mô phỏng phán đoán của con người, sau đó tinh chỉnh các biểu diễn của một mô hình dựa trên thị giác tiên tiến, đã được đào tạo trước để chuyển đổi một cấu trúc phù hợp với con người. Kết quả là một mô hình phù hợp với con người có thể xấp xỉ chính xác hơn hành vi và sự không chắc chắn của con người trên nhiều tác vụ tương đồng khác nhau, đồng thời cải thiện khả năng khái quát hóa và độ mạnh phân phối trên nhiều tác vụ học máy khác nhau. Tóm lại, chúng tôi chứng minh rằng việc bổ sung kiến thức của con người vào mạng nơ-ron tạo ra các biểu diễn tối ưu, nâng cao cả khả năng phán đoán nhận thức và ứng dụng thực tế của con người, dẫn đến các hệ thống trí tuệ nhân tạo mạnh mẽ hơn, dễ diễn giải hơn và phù hợp với con người hơn.