Este artículo insta a replantear la evaluación de los sistemas colaborativos entre humanos y IA y propone un enfoque más sofisticado y multidimensional. Analizamos el "Genetic Car Designer", un sistema colaborativo entre humanos y IA, mediante un estudio de campo a gran escala con 808 participantes y un estudio de laboratorio controlado con 12 participantes. Los participantes que recibieron propuestas de diseño generadas por un sistema inteligente basado en MAP-Elites demostraron una mayor implicación cognitiva y conductual, y obtuvieron resultados de diseño de mayor calidad que quienes recibieron propuestas de diseño aleatorias. Demostramos que los métodos de evaluación existentes, centrados únicamente en métricas de calidad conductual y de diseño, no logran abarcar todo el espectro de la implicación del usuario. Argumentamos que el proceso de diseño entre humanos y IA debe considerarse una evaluación holística de los sistemas, considerando la evolución de los estados emocionales, conductuales y cognitivos del diseñador. También argumentamos que los sistemas inteligentes deben considerarse elementos centrales de la experiencia del usuario, no simplemente herramientas de backend.