Este artículo se centra en lograr capacidades de percepción similares a las humanas en modelos lingüísticos multimodales a gran escala (MLLM). A diferencia de estudios previos que se centran principalmente en mejorar las capacidades de inferencia de los MLLM, este artículo plantea la cuestión fundamental de si los MLLM pueden realmente percibir el mundo como los humanos. Para ello, en lugar de parámetros especializados en inferencia, proponemos un nuevo parámetro centrado en la percepción denominado Prueba del Ojo de Turing (TET), que consta de cuatro tareas de diagnóstico que utilizan imágenes sintéticas que los humanos procesan intuitivamente. Los resultados experimentales muestran que los MLLM de última generación presentan graves deficiencias en tareas de percepción sencillas para humanos, y el aprendizaje en contexto y el aprendizaje de la columna vertebral del lenguaje, que resultaron eficaces en parámetros previos, no consiguen mejorar el rendimiento. Por otro lado, el ajuste fino de la torre de visión permite una rápida adaptación, lo que sugiere que este parámetro desafía la generalización de la torre de visión, no el conocimiento y las capacidades de inferencia de la columna vertebral del lenguaje. Esto pone de relieve una diferencia clave entre los MLLM actuales y la percepción humana. En la versión actual, solo se expone un subconjunto de las tareas TET, y en el futuro se agregarán métodos para mejorar la generalización visual y tareas más diversas.