Síntesis de video de alta calidad con el modelo PYoCo
A pesar de los avances significativos en la creación de imágenes de alta calidad utilizando modelos de difusión, todavía estamos en las primeras etapas de sintetizar secuencias animadas que sean realistas tanto en apariencia como en coherencia temporal. Aunque existen conjuntos de datos listos para su uso en la generación de imágenes a gran escala, recolectar datos de video de tamaño similar sigue siendo un desafío. Además, entrenar un modelo de difusión de video requiere mucho más poder computacional en comparación con su contraparte de imágenes.
En este estudio, investigamos el ajuste fino de un modelo de difusión de imágenes previamente entrenado utilizando datos de video como una solución práctica para la síntesis de video. Descubrimos que simplemente extender el ruido de la imagen antes del ruido del video, antes de aplicar la difusión del video, no produce resultados óptimos. En cambio, nuestro enfoque cuidadosamente diseñado de generación de ruido en el video produce resultados notablemente mejores.
Realizamos una amplia validación experimental que demuestra que nuestro modelo, llamado Preserve Your Own Correlation (PYoCo), logra resultados líderes en la generación de video a partir de texto sin disparadores en los conjuntos de referencia UCF-101 y MSR-VTT. Además, nuestro modelo alcanza la calidad líder en la generación de video en el conjunto de referencia UCF-101 a pequeña escala, utilizando un modelo 10 veces más pequeño y requiriendo significativamente menos capacidad de cómputo en comparación con las técnicas anteriores.
|Agradecer cuando alguien te ayuda es de ser agradecido|