LATTE3D crear modelos tridimensionales texturizados de objetos del mundo real
Nvidia ha publicado un video que muestra LATTE3D, su nuevo modelo de inteligencia artificial (IA) diseñado para crear modelos tridimensionales texturizados de objetos del mundo real a partir de simples instrucciones de texto.
Según Nvidia, LATTE3D puede generar formas tridimensionales "casi instantáneamente", incluso cuando se utiliza solo una unidad de procesamiento gráfico (GPU) RTX A6000 de la generación anterior.
¿Qué hace que LATTE3D sea superior a los modelos anteriores de IA para convertir texto en modelos 3D?
LATTE3D (Síntesis 3D amortizada a gran escala de texto a 3D mejorado) es el último modelo de IA de Nvidia para convertir texto en modelos 3D. Este es el tercero en un año, después de Magic3D y ATT3D.
Cada uno ha mejorado con respecto al anterior, aumentando tanto la velocidad de entrenamiento como la calidad del resultado.
Con ATT3D, Nvidia comenzó a entrenar el modelo con múltiples instrucciones de texto y recursos 3D, para tener en cuenta las diferentes formas en que un usuario podría describir el objeto a recrear.
Este enfoque acelera el entrenamiento en comparación con el uso de instrucciones individuales, como se hacía con Magic3D.
LATTE3D también utiliza múltiples instrucciones (para este trabajo, Nvidia generó un conjunto de 100,000 instrucciones posibles utilizando ChatGPT), pero mejora la calidad visual de los recursos generados.
¿Cómo de buenos son los modelos 3D creados por LATTE3D?
Si comparamos los modelos de demostración generados por ATT3D y LATTE3D, los modelos de LATTE3D son notablemente más nítidos y detallados.
Aunque todavía tienen una resolución relativamente baja, están llegando al punto en el que podrían utilizarse para crear una escena básica o incluso como modelos de fondo.
¿Qué significa LATTE3D para los artistas 3D?
LATTE3D es principalmente una prueba de concepto: Nvidia no ha publicado el código fuente y el modelo solo fue entrenado para dos tipos específicos de objetos: animales y objetos cotidianos.
Lo más significativo es lo que indica sobre la rapidez con la que está evolucionando la conversión de texto en modelos 3D y, por extensión, cuán pronto podrían estar disponibles servicios públicos y utilitarios de esta tecnología.
Durante la conferencia GTC 2024 de Nvidia, Sanja Fidler, vicepresidenta de investigación de IA de la compañía, admitió que la calidad "aún no se acerca a lo que crearía un artista", pero señaló lo lejos que ha llegado la tecnología desde que Google anunció su modelo pionero DreamFusion a fines de 2022.
Hace un año, los modelos de IA tardaban una hora en generar imágenes 3D de esta calidad, y el estado actual de la técnica ahora es de entre 10 y 12 segundos.
Ahora podemos producir resultados un orden de magnitud más rápido, lo que acerca la generación de modelos 3D a partir de texto casi en tiempo real para creadores de todas las industrias.
Puedes obtener más información sobre el nuevo modelo de IA de texto a 3D LATTE3D en el blog de Nvidia.