Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Generación de vídeo condicional para una compresión de vídeo de alta eficiencia

Created by
  • Haebom

Autor

Fangqiu Yi, Jingyu Xu, Jiawei Shao, Chi Zhang, Xuelong Li

Describir

Este artículo propone un marco de compresión de video perceptualmente optimizado que aprovecha el modelo de difusión condicional, el cual destaca en la reconstrucción de contenido de video que coincide con la percepción visual humana. Replanteamos la compresión de video como una tarea generativa condicional, donde un modelo generativo sintetiza video a partir de señales dispersas pero ricas en información. Presentamos tres módulos principales: condicionamiento multipartícula, que captura tanto la estructura estática de la escena como las señales espaciotemporales dinámicas; una representación compacta diseñada para una transmisión eficiente sin sacrificar la riqueza semántica; y entrenamiento multicondicional utilizando abandono de modalidad e incrustaciones con reconocimiento de roles para evitar la dependencia excesiva de una sola modalidad y mejorar la robustez. Amplios experimentos demuestran que el método propuesto supera significativamente a los códecs convencionales y neuronales en métricas de calidad perceptual como la Distancia de Video de Fréchet (FVD) y LPIPS, especialmente con altas relaciones de compresión.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco de compresión de vídeo que utiliza el modelo de difusión condicional.
Logra una calidad de percepción superior con altas relaciones de compresión en comparación con los códecs convencionales y neuronales (basados ​​en FVD y LPIPS)
Rendimiento de compresión eficiente y robusto logrado mediante acondicionamiento de múltiples partículas, representación compacta y entrenamiento de múltiples condiciones.
Limitations:
Falta de análisis de la complejidad computacional y los requerimientos de memoria del método propuesto.
Falta de generalización en la evaluación del desempeño en diferentes tipos de video y contenidos.
Falta de una explicación detallada de la implementación y aplicación reales
👍