Resultados 1 al 5 de 5

Tema: Neuralangelo genera imágenes 3D a partir de imágenes o secuencias de video

  1. #1
    Fecha de ingreso
    Apr 2002
    Mensajes
    25,945

    Neuralangelo genera imágenes 3D a partir de imágenes o secuencias de video

    Neuralangelo genera imágenes 3D a partir de imágenes o secuencias de video. Nvidia ha publicado un video de demostración para Neuralangelo, un nuevo modelo de IA para reconstruir modelos 3D de objetos o entornos del mundo real a partir de secuencias de video.

    El marco, que utiliza la misma tecnología subyacente que Instant NeRF de Nvidia, reconstruye escenas con una complejidad y fidelidad que superan con creces los métodos anteriores.

    La investigación podría abrir el camino a nuevas herramientas que reconstruyan objetos del mundo real para el desarrollo de juegos, efectos visuales o trabajos de visualización con mayor precisión que la fotogrametría tradicional.

    ¿Qué es Neuralangelo?

    Neuralangelo es el resultado del último trabajo de Nvidia en reconstrucción de superficies neuronales, una alternativa basada en IA al enfoque de multi-vista estéreo (MVS) utilizado en las herramientas de fotogrametría tradicionales.

    Los nuevos métodos entrenan una red neuronal para generar y optimizar progresivamente una representación volumétrica de una escena a partir de un conjunto de imágenes de origen.

    Aunque la reconstrucción de superficies neuronales evita algunas de las desventajas del MVS, como la dificultad para resolver regiones de un objeto con fuerte variación de color o áreas grandes de color homogéneo, los métodos actuales tienen dificultades para recuperar detalles de escenas del mundo real.


    ¿En qué se diferencia Neuralangelo de los métodos existentes de reconstrucción de superficies neuronales?

    Neuralangelo utiliza Instant Neural Graphic primitives (Instant NGP), la misma representación neuronal de la escena 3D subyacente utilizada en su conjunto de herramientas descargable Instant NeRF.

    La representación se refina utilizando una nueva estrategia de optimización de grueso a fino que la publicación en el blog de Nvidia compara con un escultor tallando un bloque de piedra para crear una estatua.

    La metáfora se refleja en el nombre del modelo de IA y en uno de los objetos reconstruidos en su video de demostración: la escultura de David de Miguel Ángel.

    ¿En qué aspectos mejora Neuralangelo a las técnicas existentes?

    Nvidia afirma que Neuralangelo reconstruye detalles de superficie con mayor precisión que los enfoques existentes, una afirmación respaldada por el análisis matemático en su artículo de investigación "Neuralangelo: High-Fidelity Neural Surface Reconstruction", que se presentará en la conferencia CVPR 2023 este mes.

    Además de la estatua de David, los objetos de prueba de Nvidia incluyen un camión de plataforma y su propio campus en Santa Clara, reconstruido por Neuralangelo a partir de imágenes de drones.

    ¿Cuándo podré usarlo?

    A diferencia de Instant NeRF, Nvidia no ha publicado el código fuente de Neuralangelo, por lo que actualmente es una indicación de cómo podría desarrollarse el software en el futuro en lugar de ser una herramienta de producción práctica.

    El modelo de representación neuronal ve en 3D

    Los modelos anteriores de inteligencia artificial (IA) para reconstruir escenas en tres dimensiones han tenido dificultades para capturar con precisión patrones de textura repetitivos, colores homogéneos y fuertes variaciones de color. Neuralangelo utiliza primitivas de gráficos neuronales instantáneos, la tecnología detrás de NVIDIA Instant NeRF, para ayudar a capturar estos detalles más finos.

    Para lograrlo, el modelo se basa en un video en 2D de un objeto o escena filmado desde múltiples ángulos. Selecciona varios fotogramas que capturan diferentes puntos de vista, como un artista que examina un sujeto desde múltiples lados para obtener una idea de la profundidad, el tamaño y la forma.

    Una vez que se determina la posición de la cámara en cada cuadro, la IA de Neuralangelo crea una representación aproximada en tres dimensiones de la escena, similar a cómo un escultor comienza a tallar la forma del sujeto.

    Luego, el modelo optimiza el renderizado para afinar los detalles, al igual que un escultor talla minuciosamente la piedra para imitar la textura de la tela o de una figura humana.

    El resultado final es un objeto o escena en 3D a gran escala que se puede utilizar en aplicaciones de realidad virtual, gemelos digitales o desarrollo de robótica.


    Encuentra NVIDIA Research en CVPR, del 18 al 22 de junio

    Neuralangelo es uno de los casi 30 proyectos de NVIDIA Research que se presentarán en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR), que se llevará a cabo del 18 al 22 de junio en Vancouver. Los documentos abarcarán temas que incluyen estimación de poses, reconstrucción en 3D y generación de videos.

    Un proyecto destacado es DiffCollage, que es un método de difusión que crea contenido a gran escala, incluyendo panoramas horizontales largos, imágenes de 360 grados y bucles visuales. Cuando se alimenta un conjunto de datos de entrenamiento de imágenes con una relación de aspecto estándar, DiffCollage trata estas imágenes más pequeñas como secciones de una imagen más grande, como piezas de un collage. Esto permite que los modelos de difusión generen contenido de gran tamaño con una apariencia cohesiva, sin necesidad de entrenarlos en imágenes de la misma escala.
    |Agradecer cuando alguien te ayuda es de ser agradecido|

  2. #2
    Fecha de ingreso
    Apr 2002
    Mensajes
    25,945

    Muestrear entornos y accesorios para producir gemelos digitales

    A menudo, los artistas necesitan muestrear entornos y accesorios para producir gemelos digitales, copias o duplicados digitales. La fotogrametría plantea problemas reales en cuanto al número de imágenes requeridas. NVIDIA acaba de publicar su trabajo sobre el uso de videos de teléfonos para producir modelos en 3D utilizando la tecnología NeRF.

    La reconstrucción de superficies neuronales ya ha demostrado ser una forma poderosa de recuperar superficies en 3D densas utilizando representación neuronal basada en imágenes, pero muchos métodos actuales tienen dificultades para proporcionar modelos con suficientes estructuras de superficie detalladas.

    Para abordar este problema, NVIDIA ha publicado Neuralangelo, que combina el poder de las cuadrículas hash tridimensionales de múltiple resolución con representación neuronal de superficies. Dos elementos clave permiten este enfoque. Primero, se utiliza el gradiente numérico para calcular derivadas de orden superior como una operación de suavizado.

    En segundo lugar, Neuralangelo utiliza una optimización de nivel grueso a fino en las cuadrículas hash generadas para controlar diferentes niveles de detalle. Incluso sin entradas de cámara adicionales como mapas de profundidad, Neuralangelo puede producir de manera efectiva estructuras de superficie en 3D densas a partir de un clip, con una fidelidad significativamente mejor que la mayoría de los métodos anteriores. Esto permite la reconstrucción detallada de escenas a gran escala a partir de capturas de video, como videos de drones y teléfonos móviles.

    Dado que Neuralangelo genera estructuras en 3D con detalles y texturas intrincados, los profesionales de efectos visuales pueden importar estos objetos en 3D a sus aplicaciones de diseño y edición favoritas, y editarlos aún más para su uso en producción.

    |Agradecer cuando alguien te ayuda es de ser agradecido|

  3. #3
    Fecha de ingreso
    Apr 2002
    Mensajes
    25,945

    ¿Por qué no utilizar simplemente la fotogrametría?

    Las técnicas de fotogrametría basadas en imágenes normales utilizan una "cuadrícula de ocupación volumétrica" para representar la escena que se está capturando. Cada voxel en la fotogrametría se visita y se marca como "ocupado" si hay una constancia de color ajustada entre los píxeles de imagen proyectados correspondientes de las diversas vistas originales de la cámara.

    La suposición de consistencia fotométrica suele fallar cuando se utiliza el autoexposición o se filman superficies reflectantes (materiales no lambertianos), que son extremadamente comunes en el mundo real. La tecnología NeRF ya no requiere estas restricciones de constancia de color en múltiples vistas al realizar una reconstrucción 3D con NeRF.

    En comparación, NeRFs logra resultados fotorrealistas con efectos dependientes de la vista, es decir, a diferencia de la fotogrametría, las superficies capturan la forma en que la superficie cambia dependiendo del ángulo desde el que se ve.


    ¿Cómo funciona?

    Se podría construir una nube de puntos utilizando técnicas de estéreo multivista, pero esto a menudo conduce a superficies faltantes o ruidosas y todavía tienen dificultades con materiales no lambertianos. Los NeRFs logran imágenes fotorrealistas con efectos dependientes de la vista, ya que utilizan perceptrones multicapa basados en coordenadas (MLP) para representar la escena como una función implícita.

    Codifica escenas en 3D con un MLP que mapea ubicaciones espaciales en 3D con color y densidades de volumen. Aprovechando la continuidad inherente de los MLP con representación neuronal de volumen, se pueden optimizar las superficies para interpolar entre ubicaciones espaciales, lo que resulta en representaciones de superficie suaves y completas. El problema con estos renderizados neuronales MLP ha sido que no se escalan bien.

    Instant NGP introduce una estructura de cuadrícula tridimensional híbrida con una codificación de hash de múltiple resolución y un MLP liviano que se escala. La representación híbrida aumenta en gran medida el poder de los campos neuronales y ha logrado un gran éxito al representar detalles muy finos de los objetos.

    En el nuevo trabajo de NVIDIA, ofrecen Neuralangelo como una reconstrucción de superficie de alta fidelidad utilizando esta nueva tecnología. Neuralangelo adopta Instant NGP como una representación de renderización neuronal de la escena en 3D, optimizada para funcionar desde diferentes vistas a través de la representación neuronal de superficies.
    |Agradecer cuando alguien te ayuda es de ser agradecido|

  4. #4
    Fecha de ingreso
    Apr 2002
    Mensajes
    25,945

    Neuralangelo reconstruye la escena a partir de imágenes multivista

    Neuralangelo muestrea ubicaciones en 3D a lo largo de una vista de cámara, a partir de un video clip, y utiliza una codificación de hash de múltiple resolución para codificar las posiciones. El proceso ofrecido por Neuralangelo es simple pero efectivo: utilizando gradientes numéricos para derivadas de orden superior y una estrategia de optimización de nivel grueso a fino, Neuralangelo ofrece el poder de la codificación de hash de múltiple resolución para la reconstrucción de superficies neuronales.

    Neuralangelo recupera de manera efectiva información de escenas densas tanto de capturas centradas en objetos como de escenas en interiores y exteriores a gran escala con un detalle extremadamente alto, lo que permite una reconstrucción detallada de escenas a gran escala a partir de un video normal.

    La capacidad de Neuralangelo para traducir objetos con texturas y materiales complejos del mundo real, como tejas de techo, paneles de vidrio y mármol liso y brillante, hace que las reconstrucciones en 3D sean mucho más útiles. "Las capacidades de reconstrucción en 3D que ofrece Neuralangelo serán un gran beneficio para los creadores, ayudándoles a recrear el mundo real en el mundo digital", dijo Ming-Yu Liu, director principal de investigación y coautor del artículo.

    |Agradecer cuando alguien te ayuda es de ser agradecido|

  5. #5
    Fecha de ingreso
    Apr 2002
    Mensajes
    25,945

    Nvidia ha publicado el código fuente de Neuralangelo

    Nvidia ha publicado el código fuente de Neuralangelo. El repositorio de GitHub incluye imágenes de Docker prediseñadas , por lo que debería ser posible ejecutarlas en Windows, Linux o macOS.

    El código se publica bajo una licencia personalizada de código fuente de Nvidia . Es una licencia Apache 2.0 modificada que limita su uso al desarrollo de aplicaciones no comerciales, y solo para GPU Nvidia.

    Puedes descargar todos los archivos y el código fuente desde GitHub.

    Licencia de Código Fuente de NVIDIA para Neuralangelo

    Definiciones

    Licenciante se refiere a cualquier persona o entidad que distribuye su trabajo.
    Software indica la obra original disponible bajo esta licencia.
    Obra abarca el software y cualquier trabajo adicional o derivado de este bajo esta licencia.
    Procesadores NVIDIA engloba unidades de procesamiento, gráficos, ASIC, FPGA, entre otros, provistos por NVIDIA.

    Términos como reproducir, reproducción, obras derivadas y distribución tienen sentido según las leyes de derechos de autor de EE. UU., excepto cuando trabajos derivados sean separables o vinculados a interfaces del trabajo.

    Concesión de Licencia

    Derechos de Autor: Bajo los términos de esta licencia, cada licenciante otorga una licencia de derechos de autor perpetua, global, no exclusiva y sin regalías para reproducir, preparar obras derivadas, exhibir públicamente, ejecutar públicamente, sublicenciar y distribuir su obra y trabajos derivados resultantes en cualquier forma.

    Limitaciones

    Redistribución: Puede reproducir o distribuir la obra bajo esta licencia, incluyendo una copia completa y sin modificar de esta licencia y conservando avisos de derechos de autor y atribución presentes en la obra.

    Obras Derivadas: Puede aplicar términos adicionales o diferentes a sus trabajos derivados solo si estos términos reflejan la limitación de uso de la Sección 3.3 y si identifica los trabajos derivados sujetos a esos términos.

    Uso Limitado: El uso de la obra y trabajos derivados solo es no comercial y con procesadores NVIDIA. NVIDIA y afiliados pueden usarlos comercialmente.

    Reclamaciones de Patentes: Presentar un reclamo de patente contra un licenciante termina sus derechos bajo esta licencia.

    Marcas Registradas: Esta licencia no otorga derechos de uso de nombres o marcas del licenciante, excepto para reproducir avisos descritos.

    Terminación: La violación de esta licencia termina los derechos inmediatamente.

    Descargo de Garantía: El trabajo se proporciona sin garantías, incluyendo comerciabilidad o idoneidad. Usted asume el riesgo.

    Limitaciones en cuanto a la responsabilidad de Nvidia: Salvo lo prohibido por la ley, el licenciante no es responsable por daños, incluso si se le advirtió sobre la posibilidad de tales daños.

    Puedes descargar todos los archivos y el código fuente desde GitHub.
    |Agradecer cuando alguien te ayuda es de ser agradecido|

Temas similares

  1. 3ds Max Chaos Player visor de secuencias de imágenes de alto rendimiento
    Por 3dpoder en el foro Programas de Diseño 3D y CAD
    Respuestas: 0
    : 19-01-2022, 17:48
  2. Blender Secuencias de imágenes en Cycles render
    Por jaumao en el foro Materiales y Texturizado
    Respuestas: 2
    : 15-04-2013, 10:33
  3. 3dsMax Problemas con background de secuencias de imágenes avi mov
    Por DonAm en el foro Animación y Rigging
    Respuestas: 3
    : 22-04-2010, 01:57
  4. Sobre secuencias de imágenes en ae
    Por RGB2 en el foro Postproducción
    Respuestas: 4
    : 17-09-2008, 19:39
  5. Ram player: secuencias de imágenes a video
    Por 3dpoder en el foro 3DStudio Max
    Respuestas: 2
    : 13-07-2008, 03:11

Etiquetas para este tema