[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

“PhyWorldBench”: Una evaluación integral del realismo físico en modelos de texto a video

Created by
  • Haebom

Autor

Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang

Describir

En este artículo, presentamos PhyWorldBench, un referente integral para evaluar modelos de generación de video según su adherencia a las leyes de la física. PhyWorldBench abarca una amplia gama de fenómenos físicos, desde principios básicos como el movimiento de objetos y la conservación de la energía hasta escenarios más complejos que involucran interacciones de cuerpos rígidos y movimientos humanos o animales. También introducimos la categoría "Antifísica", que utiliza indicaciones que violan intencionalmente las leyes de la física en el mundo real para evaluar si los modelos pueden seguir estas instrucciones manteniendo la coherencia lógica. Además de la evaluación humana a gran escala, presentamos una forma simple pero efectiva de evaluar el realismo físico de forma inmediata, aprovechando los MLLM actuales. Evaluamos 12 modelos de generación de texto a video de vanguardia (cinco de código abierto y cinco propietarios) y realizamos un análisis comparativo detallado para identificar los desafíos significativos que enfrentan los modelos para cumplir con las leyes de la física en el mundo real. Realizamos pruebas exhaustivas en 1.050 indicaciones seleccionadas (escenarios básicos, complejos y semifísicos) para examinar rigurosamente el desempeño en una amplia gama de fenómenos físicos con una variedad de tipos de indicaciones, y derivamos pautas específicas para escribir indicaciones que mejoren la fidelidad a los principios físicos.

Takeaways, Limitations

Takeaways: PhyWorldBench proporciona un punto de referencia estandarizado para evaluar el realismo físico de los modelos de generación de video. Los métodos de evaluación de disparo cero permiten una evaluación eficiente del modelo. El análisis de diversos fenómenos físicos y tipos de indicaciones proporciona instrucciones específicas para la mejora del modelo.
Limitations: A pesar de la exhaustividad del punto de referencia, es difícil reflejar a la perfección todos los fenómenos físicos del mundo real. La precisión de los métodos de evaluación de disparo cero basados en MLLM requiere mayor investigación. Los tipos y números de modelos utilizados en la evaluación pueden ser limitados.
👍