1 Archivos adjunto(s)
Las vocalizaciones no verbales como la risa y otros gestos
Las vocalizaciones no verbales (NVV), como la risa, desempeñan un papel crucial en la comunicación durante interacciones sociales, transmitiendo información importante sobre el estado o intenciones del hablante.
Aunque no existe una definición clara de NVV ni un protocolo bien definido para transcribirlas o detectarlas, el enfoque habitual ha sido centrarse en detectar una NVV específica, como la risa, y agrupar el resto en una categoría general de otras.
Sin embargo, este enfoque puede afectar negativamente el rendimiento. En este trabajo, se propone una hipótesis que sugiere que utilizar más clases para representar diferentes tipos de NVV puede mejorar el rendimiento en esta tarea.
Para abordar esta cuestión, se presentan estudios que emplean redes neuronales profundas de secuencia a secuencia, incluyendo múltiples clases de NVV en lugar de agruparlas bajo otras, permitiendo más de una etiqueta por muestra.
Los resultados muestran que este enfoque produce un mejor rendimiento en la detección de NVV. Además, se evalúa el mismo modelo en la detección de la risa utilizando marcos y métricas basadas en el habla, y se muestra que el enfoque propuesto alcanza un rendimiento de última generación en el corpus ICSI.
Términos clave: paralingüística computacional, detección de vocalización no verbal, detección de la risa, entrenamiento de múltiples etiquetas.
Introducción al tema de la vocalización gesticular
Además del habla, la comunicación humana implica una parte importante de comunicación no verbal, como las vocalizaciones, como risas, rellenos, estornudos y respiraciones. Las NVV transmiten información sobre el estado fisiológico, emocional e intenciones del hablante, y pueden incluir combinaciones de vocalización, expresiones faciales o movimientos corporales.
Aunque este artículo reconoce la importancia de las expresiones y movimientos corporales en la comunicación humana, se enfoca exclusivamente en las vocalizaciones. Un sistema que detecte NVV tiene múltiples aplicaciones potenciales, como en seguridad y atención médica, incluyendo investigaciones recientes relacionadas con la detección de COVID-19 y cuidado.
Las NVV suelen estar presentes en el habla conversacional espontánea, lo que las hace relevantes en tareas que implican habla espontánea, como en sistemas de reconocimiento automático de voz (ASR) para reducir errores y en sistemas de reconocimiento de emociones, donde pueden utilizarse como características adicionales.
La detección de vocalizaciones no verbales (NVV) presenta desafíos debido a la falta de una definición clara y protocolos estándar de transcripción y anotación. Es difícil establecer una lista exhaustiva que abarque todas las posibles vocalizaciones.
Para entrenar clasificadores como las redes neuronales
Se necesita una lista de clases. El enfoque estándar es agrupar todas las clases no relevantes en una sola, por ejemplo, en el caso de la detección de la risa, se agrupan todos los segmentos como risa y no risa, lo que genera una colección heterogénea de sonidos.
La hipótesis es que este enfoque puede afectar negativamente el entrenamiento del modelo, ya que al aprender la clase otra, el modelo se expone a muchos patrones muy diferentes, lo que puede causar confusión. Por lo tanto, se argumenta que utilizar toda la información disponible en lugar de colapsar clases mejorará el rendimiento.
En este artículo, se presenta un estudio sobre el corpus de la reunión ICSI, donde se utilizan todas las clases disponibles durante el entrenamiento del modelo. Se evalúan tareas binarias (risa/no-risa) y multiclase (NVV).
Se investigan dos enfoques de entrenamiento
Multiclase, donde el modelo se entrena utilizando la función estándar de pérdida de entropía cruzada, y multietiqueta, que utiliza una función de pérdida compuesta por una suma de clasificadores binarios, lo que permite que el modelo genere más de una etiqueta por cuadro.
También se investiga el uso de un modelo de secuencia a secuencia (Seq2Seq), donde la entrada es una secuencia de fotogramas característicos y la salida es una secuencia de etiquetas.
Por último, se propone utilizar métricas basadas en expresiones de la literatura de detección de eventos de sonido para medir la corrección de la ubicación de los límites, así como la tasa de inserciones, eliminaciones y sustituciones, en lugar de evaluar solo con métricas basadas en marcos.
En este trabajo, se lleva a cabo una investigación sobre la detección de vocalizaciones no verbales (NVV) y la risa, utilizando enfoques de entrenamiento multiclase y multietiqueta en comparación con una línea de base basada en cuadros.
El enfoque de la cámara mejora la compresión del público
Los resultados demuestran que los enfoques propuestos mejoran significativamente el rendimiento en ambas tareas en comparación con el enfoque estándar de risa/no-risa.
En primer lugar, se muestra que tanto la detección de NVV como la risa se benefician del uso de entrenamiento multiclase y multietiqueta. Además, en el caso específico de la detección de la risa en el corpus de reuniones ICSI, se logra un rendimiento de última generación mediante el uso de modelos Seq2Seq.
Las contribuciones principales de este trabajo son las siguientes:
- Se demuestra que el enfoque de entrenamiento multiclase y multietiqueta mejora el rendimiento en la detección de risa y NVV.
- Se logra un rendimiento de última generación en la detección de la risa en el corpus ICSI utilizando modelos Seq2Seq.
- Se presenta una nueva línea de base para la detección de NVV.
El resto del documento está organizado de la siguiente manera
Se presenta una revisión de la literatura en la Sección 2, seguida de la descripción de la metodología en la Sección 3. La Sección 4 detalla la configuración experimental, mientras que la Sección 5 analiza y discute los resultados obtenidos en los estudios realizados. Por último, la Sección 6 concluye el documento.
El documento lo puedes descargar desde los archivos adjuntos, está completo.
Aprendizaje automático en Speech Graphics
El Dr. Dimitri Palaz, jefe de aprendizaje automático en Speech Graphics, se unió al equipo en 2017, cuando la empresa era una pequeña start-up. Con un enfoque en el desarrollo de modelos de redes neuronales profundas para mejorar la tecnología de animación facial, Dimitri buscaba resolver problemas del mundo real y tener un impacto significativo.
El proyecto de vocalizaciones no verbales surgió del objetivo de proporcionar una animación facial precisa y creíble basada en audio. Para ello, se enfocaron en vocalizaciones no verbales, como gruñidos, respiraciones y risas, que transmiten información importante sobre el estado fisiológico, emocional o las intenciones del hablante.
Al no encontrar conjuntos de datos públicos adecuados, el equipo construyó su propio conjunto utilizando una amplia variedad de datos de audio recopilados a lo largo de los años. Se centraron en el enfoque centrado en los datos, asegurándose de que los datos fueran de alta calidad y variados. La tarea de etiquetado fue desafiante, ya que no existe una definición consensuada de vocalizaciones no verbales, pero finalmente lograron desarrollar un conjunto de datos satisfactorio.
Detectar vocalizaciones mediante redes neuronales
Uno de los principales desafíos fue la detección de estas vocalizaciones con el uso de redes neuronales profundas. El enfoque convencional de establecer un conjunto de etiquetas exhaustivo no funcionó para sus categorías específicas, lo que llevó al desarrollo de un algoritmo novedoso basado en aprendizaje multiclase.
El equipo continúa trabajando para mejorar los datos y modelos, y pronto lanzarán un modo de detección de respiración, que será útil para mejorar la animación en líneas entrecortadas. También ofrecerán este modo como metadatos para que los clientes puedan usarlo en su propia canalización.
En resumen, el equipo de Speech Graphics ha abordado el desafío de la detección de vocalizaciones no verbales mediante el enfoque centrado en los datos y la implementación de algoritmos innovadores para mejorar la tecnología de animación facial y ofrecer una experiencia más realista en sus productos.