Bài báo này kêu gọi xem xét lại cách đánh giá các hệ thống cộng tác giữa con người và AI, đồng thời đề xuất một phương pháp tiếp cận đa chiều và tinh vi hơn. Chúng tôi phân tích "Genetic Car Designer", một hệ thống cộng tác giữa con người và AI, thông qua một nghiên cứu thực địa quy mô lớn với 808 người tham gia và một nghiên cứu trong phòng thí nghiệm có kiểm soát với 12 người tham gia. Những người tham gia nhận được đề xuất thiết kế được tạo ra bởi một hệ thống thông minh dựa trên MAP-Elite đã thể hiện sự tương tác về nhận thức và hành vi cao hơn, đồng thời tạo ra kết quả thiết kế chất lượng cao hơn so với những người nhận được đề xuất thiết kế ngẫu nhiên. Chúng tôi chứng minh rằng các phương pháp đánh giá hiện tại chỉ tập trung vào các số liệu về chất lượng thiết kế và hành vi không thể nắm bắt được toàn bộ phạm vi tương tác của người dùng. Chúng tôi lập luận rằng quy trình thiết kế giữa con người và AI nên được coi là một đánh giá toàn diện về các hệ thống AI, xem xét các trạng thái cảm xúc, hành vi và nhận thức đang phát triển của nhà thiết kế. Chúng tôi cũng lập luận rằng các hệ thống thông minh nên được coi là các yếu tố cốt lõi của trải nghiệm người dùng, chứ không chỉ đơn thuần là các công cụ phụ trợ.