[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MindJourney: Escalamiento en tiempo de prueba con modelos del mundo para razonamiento espacial

Created by
  • Haebom

Autor

Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan

Describir

En este artículo, proponemos MindJourney, un novedoso marco de escalamiento en tiempo de prueba para mejorar la capacidad de inferencia espacial 3D de los modelos de lenguaje visual (VLM). MindJourney combina un modelo de mundo controlable basado en difusión de video con un VLM para superar la limitación del VLM de reconocer únicamente imágenes 2D y comprender la dinámica 3D. El VLM planifica las trayectorias de la cámara, el modelo de mundo sintetiza los puntos de vista correspondientes a cada paso y el VLM infiere basándose en la evidencia multivista obtenida durante el proceso de exploración interactiva. Logramos una mejora promedio del rendimiento de más del 8% en SAT, un punto de referencia representativo de inferencia espacial, sin necesidad de ajustes, lo que demuestra que la combinación del modelo de mundo para el escalamiento en tiempo de prueba es un enfoque simple e inmediato para una inferencia 3D robusta. Además, demostramos el potencial de aprovechar el modelo de mundo para el escalamiento en tiempo de prueba al superar el rendimiento de un VLM de inferencia en tiempo de prueba entrenado mediante aprendizaje por refuerzo.

Takeaways, Limitations

Takeaways:
Demostramos que la combinación de modelos mundiales y VLM para escalar el tiempo de prueba puede mejorar el rendimiento de la inferencia espacial 3D.
Se ha demostrado que es un método eficaz que consigue mejoras de rendimiento sin necesidad de realizar ajustes.
Demostramos la utilidad del enfoque basado en modelos mundiales al superar al VLM basado en aprendizaje de refuerzo.
Diseño simple y plug-and-play, altamente aplicable a varios VLM.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Los modelos mundiales pueden ser computacionalmente costosos.
Es necesario verificar si las mejoras de rendimiento para un punto de referencia específico se traducen en las mismas mejoras de rendimiento para otros puntos de referencia.
Puede haber una alta dependencia de la precisión del modelo mundial.
👍