Neuralangelo genera imágenes 3D a partir de imágenes o secuencias de video
Neuralangelo genera imágenes 3D a partir de imágenes o secuencias de video. Nvidia ha publicado un video de demostración para Neuralangelo, un nuevo modelo de IA para reconstruir modelos 3D de objetos o entornos del mundo real a partir de secuencias de video.
El marco, que utiliza la misma tecnología subyacente que Instant NeRF de Nvidia, reconstruye escenas con una complejidad y fidelidad que superan con creces los métodos anteriores.
La investigación podría abrir el camino a nuevas herramientas que reconstruyan objetos del mundo real para el desarrollo de juegos, efectos visuales o trabajos de visualización con mayor precisión que la fotogrametría tradicional.
¿Qué es Neuralangelo?
Neuralangelo es el resultado del último trabajo de Nvidia en reconstrucción de superficies neuronales, una alternativa basada en IA al enfoque de multi-vista estéreo (MVS) utilizado en las herramientas de fotogrametría tradicionales.
Los nuevos métodos entrenan una red neuronal para generar y optimizar progresivamente una representación volumétrica de una escena a partir de un conjunto de imágenes de origen.
Aunque la reconstrucción de superficies neuronales evita algunas de las desventajas del MVS, como la dificultad para resolver regiones de un objeto con fuerte variación de color o áreas grandes de color homogéneo, los métodos actuales tienen dificultades para recuperar detalles de escenas del mundo real.
¿En qué se diferencia Neuralangelo de los métodos existentes de reconstrucción de superficies neuronales?
Neuralangelo utiliza Instant Neural Graphic primitives (Instant NGP), la misma representación neuronal de la escena 3D subyacente utilizada en su conjunto de herramientas descargable Instant NeRF.
La representación se refina utilizando una nueva estrategia de optimización de grueso a fino que la publicación en el blog de Nvidia compara con un escultor tallando un bloque de piedra para crear una estatua.
La metáfora se refleja en el nombre del modelo de IA y en uno de los objetos reconstruidos en su video de demostración: la escultura de David de Miguel Ángel.
¿En qué aspectos mejora Neuralangelo a las técnicas existentes?
Nvidia afirma que Neuralangelo reconstruye detalles de superficie con mayor precisión que los enfoques existentes, una afirmación respaldada por el análisis matemático en su artículo de investigación "Neuralangelo: High-Fidelity Neural Surface Reconstruction", que se presentará en la conferencia CVPR 2023 este mes.
Además de la estatua de David, los objetos de prueba de Nvidia incluyen un camión de plataforma y su propio campus en Santa Clara, reconstruido por Neuralangelo a partir de imágenes de drones.
¿Cuándo podré usarlo?
A diferencia de Instant NeRF, Nvidia no ha publicado el código fuente de Neuralangelo, por lo que actualmente es una indicación de cómo podría desarrollarse el software en el futuro en lugar de ser una herramienta de producción práctica.
El modelo de representación neuronal ve en 3D
Los modelos anteriores de inteligencia artificial (IA) para reconstruir escenas en tres dimensiones han tenido dificultades para capturar con precisión patrones de textura repetitivos, colores homogéneos y fuertes variaciones de color. Neuralangelo utiliza primitivas de gráficos neuronales instantáneos, la tecnología detrás de NVIDIA Instant NeRF, para ayudar a capturar estos detalles más finos.
Para lograrlo, el modelo se basa en un video en 2D de un objeto o escena filmado desde múltiples ángulos. Selecciona varios fotogramas que capturan diferentes puntos de vista, como un artista que examina un sujeto desde múltiples lados para obtener una idea de la profundidad, el tamaño y la forma.
Una vez que se determina la posición de la cámara en cada cuadro, la IA de Neuralangelo crea una representación aproximada en tres dimensiones de la escena, similar a cómo un escultor comienza a tallar la forma del sujeto.
Luego, el modelo optimiza el renderizado para afinar los detalles, al igual que un escultor talla minuciosamente la piedra para imitar la textura de la tela o de una figura humana.
El resultado final es un objeto o escena en 3D a gran escala que se puede utilizar en aplicaciones de realidad virtual, gemelos digitales o desarrollo de robótica.
Encuentra NVIDIA Research en CVPR, del 18 al 22 de junio
Neuralangelo es uno de los casi 30 proyectos de NVIDIA Research que se presentarán en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR), que se llevará a cabo del 18 al 22 de junio en Vancouver. Los documentos abarcarán temas que incluyen estimación de poses, reconstrucción en 3D y generación de videos.
Un proyecto destacado es DiffCollage, que es un método de difusión que crea contenido a gran escala, incluyendo panoramas horizontales largos, imágenes de 360 grados y bucles visuales. Cuando se alimenta un conjunto de datos de entrenamiento de imágenes con una relación de aspecto estándar, DiffCollage trata estas imágenes más pequeñas como secciones de una imagen más grande, como piezas de un collage. Esto permite que los modelos de difusión generen contenido de gran tamaño con una apariencia cohesiva, sin necesidad de entrenarlos en imágenes de la misma escala.
|Agradecer cuando alguien te ayuda es de ser agradecido|