Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Puppet-Master: Escalamiento de la generación de video interactivo como un movimiento previo para dinámicas a nivel de partes

Created by
  • Haebom

Autor

Arruinando a Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

Describir

Puppet-Master es un generador de video interactivo que captura el movimiento interno de objetos, a nivel de partes, y sirve como proxy para el modelado universal de la dinámica de objetos. Dada la imagen de un objeto y un conjunto de "arrastres" que especifican las trayectorias de varios puntos del objeto, el modelo sintetiza un video en el que las partes del objeto se mueven en consecuencia. Para lograrlo, extendemos un generador de imagen a video preentrenado para codificar el arrastre de entrada y proponemos la atención de todo a primero como alternativa a la atención espacial convencional, mitigando los artefactos causados ​​por el ajuste fino del generador de video con datos fuera del dominio. Ajustamos el modelo con Objaverse-Animation-HQ, un novedoso conjunto de datos de clips de movimiento a nivel de partes seleccionados, obtenidos mediante la renderización de animaciones 3D sintéticas. A diferencia de los videos del mundo real, estos clips sintéticos evitan confundir el movimiento del objeto completo y de la cámara con el movimiento a nivel de partes. Filtramos exhaustivamente las animaciones deficientes y mejoramos la renderización sintética con arrastres significativos que enfatizan la dinámica interna del objeto. A diferencia de otros generadores de vídeo condicionados por movimiento que principalmente mueven objetos enteros, Puppet-Master aprende a generar movimiento parcial. Además, se generaliza bien a imágenes reales fuera del dominio y supera a los métodos existentes en pruebas de rendimiento reales sin interrupciones.

Takeaways, Limitations

Takeaways:
Presentamos Puppet-Master, un novedoso generador de vídeo interactivo que genera movimiento de objetos a nivel de fragmento.
Supera a los métodos existentes en rendimiento de disparo cero en puntos de referencia del mundo real.
Proponemos una técnica de atención integral que mitiga los artefactos causados ​​por el ajuste fino de datos fuera del dominio.
Aprenda de manera efectiva sobre el movimiento local aprovechando datos sintéticos.
Limitations:
Se basa en gran medida en el conjunto de datos Objaverse-Animation-HQ. Se requiere validación del rendimiento en varios conjuntos de datos.
La designación precisa de "resistencia" puede afectar la calidad de los resultados. Se requiere más investigación para automatizar la designación de resistencia.
Dado que se entrenó con datos sintéticos, es posible que no refleje plenamente la complejidad y diversidad de los datos del mundo real. Se requieren mejoras de rendimiento más robustas para los datos del mundo real.
👍