Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MAPS: Avanzando en el razonamiento multimodal en ciencias físicas de nivel experto

Created by
  • Haebom

Autor

Erle Zhu, Yadi Liu, Zhe Zhang, Xujun Li, Jin Zhou, Xinjie Yu, Minlie Huang, Hongning Wang

Describir

Este artículo presenta un nuevo marco, el Razonamiento Científico Multimodal con Percepción Física y Simulación (MAPS), basado en un modelo de percepción física (MPF) y un simulador para abordar la falta de capacidad de resolución de problemas en el dominio físico de los modelos de lenguaje multimodales a gran escala (MLLM), especialmente en la comprensión de diagramas con estructuras físicas complejas y el análisis cuantitativo basado en información multimodal. MAPS descompone las tareas de razonamiento multimodal de nivel experto en comprensión de diagramas físicos (MPF) y razonamiento utilizando conocimiento físico (simulador). El MPF se obtiene mediante el ajuste fino de un modelo de lenguaje visual utilizando datos sintéticos cuidadosamente diseñados (pares de diagramas físicos y sus descripciones en lenguaje de simulación). En la fase de razonamiento, MAPS integra las descripciones en lenguaje de simulación de los diagramas de entrada proporcionadas por el MPF y los resultados obtenidos mediante el proceso de Cadena de Simulación con MLLM para derivar la justificación y la respuesta final. Los resultados se verifican utilizando problemas de análisis de circuitos de nivel universitario, y MAPS mejora significativamente la precisión de inferencia de MLLM y supera a los modelos existentes.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para mejorar la capacidad de inferencia del dominio físico de MLLM
Desarrollo de un marco MAPS eficaz que integra la comprensión y simulación de diagramas físicos
Confirmación de un mejor rendimiento en comparación con los modelos existentes en problemas de nivel universitario
Proporcionar reproducibilidad de la investigación y potencial de desarrollo mediante la divulgación de códigos, modelos y conjuntos de datos.
Limitations:
Actualmente, la verificación se limita a problemas de análisis de circuitos. Se requiere mayor investigación sobre su generalización a otros dominios físicos.
El rendimiento de PPM, que se basa en datos sintéticos, puede afectar su capacidad de generalización a datos reales. Se requiere una mayor validación con datos reales.
Necesidad de mejorar la complejidad y eficiencia del proceso de cadena de simulación
👍