Voicebox genera salidas de voz a partir de texto
Voicebox es el primer modelo de inteligencia artificial generativa que permite la generalización del habla en todas las tareas con un rendimiento de última generación. En la compañía están logrando grandes avances en lo que respecta a la inteligencia artificial para pasar el texto a voz.
Al igual que los sistemas generativos de imágenes y texto, Voicebox genera salidas en una amplia variedad de estilos y puede crear tanto desde cero como modificar una muestra proporcionada. Pero no es el caso, porque Voicebox crea archivos de audio de muy alta calidad.
El modelo puede sintetizar el habla en seis idiomas diferentes, además de realizar tareas como la reducción de ruido, la edición de contenido, la conversión de estilo y la generación de muestras diversas.
Voicebox aprende por sí mismo a partir del conjunto de datos
Previamente a Voicebox, la IA generativa para el habla requería entrenamiento específico para cada tarea utilizando conjuntos de datos de entrenamiento cuidadosamente preparados. Voicebox utiliza un enfoque novedoso al aprender únicamente del audio sin procesar y su transcripción asociada.
A diferencia de los modelos autorregresivos para la generación de audio, Voicebox puede modificar cualquier parte de una muestra dada, no solo el final de un clip de audio.
Voicebox se basa en un método llamado Flow Matching, que ha demostrado mejorar los modelos de difusión. En comparación con el modelo líder en inglés VALL-E, Voicebox supera en inteligibilidad (con una tasa de error de palabras del 5,9% frente al 1,9%) y similitud de audio (0,580 frente a 0,681), mientras que es hasta 20 veces más rápido.
Voicebox supera a YourTTS
Para la transferencia de estilo entre idiomas, Voicebox supera a YourTTS al reducir la tasa de error de palabras promedio del 10,9% al 5,2% y mejorar la similitud de audio de 0,335 a 0,481.
Son muchas las aplicaciones examinadas y desarrolladas para simular el habla de las personas. Sin embargo, debido a los posibles riesgos de un mal uso, actualmente no se comparte el código ni el modelo de Voicebox con el público en general.
Se ha compartido muestras de audio y un estudio detallado que describe el enfoque y los resultados, así como un clasificador altamente efectivo que distingue entre voz auténtica y audio generado por Voicebox.
Voicebox representa un avance significativo en la investigación generativa de IA
Otros modelos generativos de IA, escalables y con capacidades de generalización de tareas, han generado entusiasmo debido a sus posibles aplicaciones en la generación de texto, imágenes y videos.
Se espera un impacto similar en el ámbito del habla en el futuro, y se alienta a otros investigadores a construir sobre este trabajo y avanzar en este campo. Tienes más información en la fuente oficial, aquí.
|Agradecer cuando alguien te ayuda es de ser agradecido|