-- Revista

Ingeniería Solidaria Vol. 19 Núm. 1 Junio 2023 | Número Ingeniería Solidaria Vol. 19 Núm. 1

Implementación de un sistema de...

Implementation of a Voice Recognition System in the Nasa Yuwe Language...

Este documento es un artículo elaborado por Julio Enrique Muñoz Burbano, Pablo Emilio Jojoa Gomez y Fausto Miguel Castro Caicedo (Universidad del Cauca y Universidad Nacional Abierta y a Distancia, Colombia) para la revista Ingeniería Solidaria Vol 19, Núm 1. Publicación de Ediciones Universidad Cooperativa de Colombia. Contacto: [email protected]

Implementación de un sistema de reconocimiento de voz en el idioma yuwe de la NASA basado en redes neuronales convolucionales

Implementation of a Voice Recognition System in the Nasa Yuwe Language Based on Convolutional Neural Networks

En 2022, la Universidad del Cauca desarrolló un innovador algoritmo de reconocimiento de voz para la lengua nasa yuwe, de gran riqueza fonética, utilizando redes neuronales convolucionales (CNN). Con 32 vocales y 34 consonantes, la lengua planteaba retos en la pronunciación y el reconocimiento de patrones de voz. El objetivo era implantar un sistema de reconocimiento del habla asistido por CNN que incluyera el preprocesamiento de la señal de audio, la extracción del escalograma del coeficiente de Mel y una arquitectura CNN para la clasificación. Los resultados demostraron márgenes de error bajos en la clasificación de palabras, estableciendo el primer sistema de reconocimiento de voz de su clase para Nasa Yuwe. A pesar de sus limitaciones, como la necesidad de más patrones de voz nativos y de herramientas tecnológicas adicionales, el sistema contribuye a la preservación y educación de la lengua.

1. INTRODUCCIÓN

Un Sistema de Reconocimiento de Voz (SRV) representa el conjunto de técnicas y algoritmos utilizados por una herramienta computacional para identificar y transformar un patrón de voz, de tal forma que permita la interacción hombre-máquina, con el fin de resolver una determinada necesidad [1]. Los SRV han cobrado especial relevancia, sobre todo por su versatilidad y funcionalidad en aplicaciones y usos diversos como la medicina, la robótica y las tecnologías domóticas, entre otros, haciendo que los dispositivos que manejan este tipo de interfaz sean cada vez más precisos y fáciles de manejar [2] [3] [4]. Los modelos VRS suelen tener las siguientes etapas: Adquisición de la señal de voz, preprocesamiento de la señal, reconocimiento y clasificación de los patrones de la señal de voz [5]. Para conseguir un SRV con márgenes de error fiables, es necesario utilizar técnicas de extracción de las características de los patrones de voz[6], entre las más utilizadas se encuentran: 1-) los escalogramas obtenidos a partir de los coeficientes Mel, los MFCC (Mel Frequency Cepstral Coefficients), que están asociados a la percepción neurológica del sonido, y en la mayoría de los casos se utilizan para identificar al locutor y no la palabra hablada[7]; 2-) las características proporcionadas por la aplicación de la transformada Wavelet, que permiten un amplio abanico de posibilidades dado el número de familias existentes, aunque las transformadas wavelet suelen ser sensibles a las variaciones de volumen en las muestras de audio [8]; 3-) la transformada de Fourier que proporciona información sobre los patrones del habla en el dominio de la frecuencia, pero no proporciona información sobre sus variaciones temporales [9]. Una ventaja de los SRV es que pueden trabajar con una gran cantidad de vocabulario sin dificultad, y el tiempo de pro-cesamiento es bajo, lo que permite al usuario evaluar satisfactoriamente el rendimiento del SRV [10].

Este documento es un artículo elaborado por Julio Enrique Muñoz Burbano, Pablo Emilio Jojoa Gomez y Fausto Miguel Castro Caicedo (Universidad del Cauca y Universidad Nacional Abierta y a Distancia, Colombia) para la revista Ingeniería Solidaria Vol 19, Núm 1. Publicación de Ediciones Universidad Cooperativa de Colombia. Contacto: [email protected]

Recursos

VER FICHA