Sistema audiovisual para reconocimiento de comandos
Audiovisual system for recognition of commands
Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocadoen el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientescepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizoseguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para lainicialización automática del algoritmo se emplearon transformaciones de color y contornos activoscon información de flujo del vector gradiente (“GVF snakes”) sobre la región labial, mientras que parael seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidasen el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automáticodel habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov(HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleandoúnicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas(AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en españoly francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robustoque ASR y VSR.
INTRODUCCIÓN
El problema de reconocimiento automático del habla en señales de audio se ha tratado regularmente a través del modelado de las señales, utilizando técnicas como Redes Neuronales [14] o modelos ocultos de Markov [19], las cuales reportan buenos resultados en la literatura. Sin embargo, cuando las condiciones acústicas son adversas, su desempeño se ve afectado. Recientemente, el reconocimiento audiovisual del habla se ha convertido en un campo activo de investigación gracias a los avances en áreas como el procesamiento digital de señales, la visión de máquina y el reconocimiento de patrones [16, 22]. Su objetivo final es permitir la comunicación hombre-máquina usando información audiovisual del habla para combatir las dificultades de un ambiente ruidoso o para tratar de reconocer las emociones exhibidas por el locutor.
Se sabe de los sistemas de comunicación que el análisis visual de la región de la boca del hablante suministra información importante. En particular, los humanos visualizamos el contorno de los labios para mejorar la comprensión del habla [7]. En los trabajos de Campbell [3] se muestra que cuando el oyente tiene información visual de la región de la boca del hablante, la relación señal a ruido (SNR) puede incrementarse hasta en 15 dB.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:362 kb