Implementación de un sistema de reconocimiento de voz en el idioma yuwe de la NASA basado en redes neuronales convolucionales
Implementation of a Voice Recognition System in the Nasa Yuwe Language Based on Convolutional Neural Networks
En 2022, la Universidad del Cauca desarrolló un innovador algoritmo de reconocimiento de voz para la lengua nasa yuwe, de gran riqueza fonética, utilizando redes neuronales convolucionales (CNN). Con 32 vocales y 34 consonantes, la lengua planteaba retos en la pronunciación y el reconocimiento de patrones de voz. El objetivo era implantar un sistema de reconocimiento del habla asistido por CNN que incluyera el preprocesamiento de la señal de audio, la extracción del escalograma del coeficiente de Mel y una arquitectura CNN para la clasificación. Los resultados demostraron márgenes de error bajos en la clasificación de palabras, estableciendo el primer sistema de reconocimiento de voz de su clase para Nasa Yuwe. A pesar de sus limitaciones, como la necesidad de más patrones de voz nativos y de herramientas tecnológicas adicionales, el sistema contribuye a la preservación y educación de la lengua.
1. INTRODUCCIÓN
Un Sistema de Reconocimiento de Voz (SRV) representa el conjunto de técnicas y algoritmos utilizados por una herramienta computacional para identificar y transformar un patrón de voz, de tal forma que permita la interacción hombre-máquina, con el fin de resolver una determinada necesidad [1]. Los SRV han cobrado especial relevancia, sobre todo por su versatilidad y funcionalidad en aplicaciones y usos diversos como la medicina, la robótica y las tecnologías domóticas, entre otros, haciendo que los dispositivos que manejan este tipo de interfaz sean cada vez más precisos y fáciles de manejar [2] [3] [4]. Los modelos VRS suelen tener las siguientes etapas: Adquisición de la señal de voz, preprocesamiento de la señal, reconocimiento y clasificación de los patrones de la señal de voz [5]. Para conseguir un SRV con márgenes de error fiables, es necesario utilizar técnicas de extracción de las características de los patrones de voz[6], entre las más utilizadas se encuentran: 1-) los escalogramas obtenidos a partir de los coeficientes Mel, los MFCC (Mel Frequency Cepstral Coefficients), que están asociados a la percepción neurológica del sonido, y en la mayoría de los casos se utilizan para identificar al locutor y no la palabra hablada[7]; 2-) las características proporcionadas por la aplicación de la transformada Wavelet, que permiten un amplio abanico de posibilidades dado el número de familias existentes, aunque las transformadas wavelet suelen ser sensibles a las variaciones de volumen en las muestras de audio [8]; 3-) la transformada de Fourier que proporciona información sobre los patrones del habla en el dominio de la frecuencia, pero no proporciona información sobre sus variaciones temporales [9]. Una ventaja de los SRV es que pueden trabajar con una gran cantidad de vocabulario sin dificultad, y el tiempo de pro-cesamiento es bajo, lo que permite al usuario evaluar satisfactoriamente el rendimiento del SRV [10].
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:6320 kb