Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Píxeles, patrones, pero no poesía: ver el mundo como humanos

Created by
  • Haebom

Autor

Hongcheng Gao, Zihao Huang, Lin Xu, Jingyi Tang, Xinhao Li, Yue Liu, Haoyang Li, Taihang Hu, Minhua Lin, Xinlong Yang, Ge Wu, Balong Bi, Hongyu Chen, Wentao Zhang

Describir

Este artículo se centra en lograr capacidades de percepción similares a las humanas en modelos lingüísticos multimodales a gran escala (MLLM). A diferencia de estudios previos que se centran principalmente en mejorar las capacidades de inferencia de los MLLM, este artículo plantea la cuestión fundamental de si los MLLM pueden realmente percibir el mundo como los humanos. Para ello, en lugar de parámetros especializados en inferencia, proponemos un nuevo parámetro centrado en la percepción denominado Prueba del Ojo de Turing (TET), que consta de cuatro tareas de diagnóstico que utilizan imágenes sintéticas que los humanos procesan intuitivamente. Los resultados experimentales muestran que los MLLM de última generación presentan graves deficiencias en tareas de percepción sencillas para humanos, y el aprendizaje en contexto y el aprendizaje de la columna vertebral del lenguaje, que resultaron eficaces en parámetros previos, no consiguen mejorar el rendimiento. Por otro lado, el ajuste fino de la torre de visión permite una rápida adaptación, lo que sugiere que este parámetro desafía la generalización de la torre de visión, no el conocimiento y las capacidades de inferencia de la columna vertebral del lenguaje. Esto pone de relieve una diferencia clave entre los MLLM actuales y la percepción humana. En la versión actual, solo se expone un subconjunto de las tareas TET, y en el futuro se agregarán métodos para mejorar la generalización visual y tareas más diversas.

Takeaways, Limitations

Takeaways: Presentamos un nuevo parámetro para la capacidad perceptual de los MLLM, el TET, y revelamos las limitaciones de su capacidad perceptual que no se habían detectado en los parámetros de inferencia existentes. Sugerimos que mejorar la capacidad de generalización de Vision Tower es un factor importante para que los MLLM alcancen una percepción a nivel humano.
Limitations: Solo una parte de la tarea TET está disponible públicamente en la versión actual, y se requiere más investigación sobre tareas y metodologías más diversas para mejorar la generalización visual. Dado que se utilizaron imágenes sintéticas, el rendimiento de la generalización en imágenes del mundo real requiere mayor validación.
👍