Cet article appelle à repenser l'évaluation des systèmes collaboratifs homme-IA et propose une approche plus sophistiquée et multidimensionnelle. Nous analysons le « Genetic Car Designer », un système collaboratif homme-IA, à travers une étude de terrain à grande échelle menée auprès de 808 participants et une étude contrôlée en laboratoire menée auprès de 12 participants. Les participants ayant reçu des propositions de conception générées par un système intelligent basé sur MAP-Elites ont démontré un engagement cognitif et comportemental plus important et ont produit des résultats de conception de meilleure qualité que ceux ayant reçu des propositions de conception aléatoires. Nous démontrons que les méthodes d'évaluation existantes, qui se concentrent uniquement sur les indicateurs comportementaux et de qualité de conception, ne parviennent pas à saisir l'intégralité du spectre de l'engagement utilisateur. Nous soutenons que le processus de conception homme-IA doit être considéré comme une évaluation holistique des systèmes homme-IA, prenant en compte l'évolution des états émotionnels, comportementaux et cognitifs du concepteur. Nous soutenons également que les systèmes intelligents doivent être considérés comme des éléments essentiels de l'expérience utilisateur, et non comme de simples outils back-end.