-- Revista

Ingeniare. Revista chilena de ingeniería Vol. 19 Núm. 2 Agosto 2011 | Número Ingeniare Vol. 19 Núm. 2

Sistema audiovisual para reconocimiento de...

Audiovisual system for recognition of commands

Este documento es un artículo elaborado por Alexander Ceballos, Andrés F. Serna-Morales, Juan B. Gómez (Universidad Nacional de Colombia Sede Manizales. Manizales, Colombia), Flavio Prieto (Universidad Nacional de Colombia Sede Bogotá. Bogotá, Colombia) y Tanneguy Redarce (Laboratoire Ampère, Institut National des Sciences Appliquées. Lyon, France) para INGENIARE. Revista Chilena de Ingeniería Vol 19, Núm 2. Publicación de la Universidad de Tarapacá, Chile. Contacto: [email protected]

Sistema audiovisual para reconocimiento de comandos

Audiovisual system for recognition of commands

Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocadoen el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientescepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizoseguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para lainicialización automática del algoritmo se emplearon transformaciones de color y contornos activoscon información de flujo del vector gradiente (“GVF snakes”) sobre la región labial, mientras que parael seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidasen el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automáticodel habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov(HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleandoúnicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas(AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en españoly francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robustoque ASR y VSR.

INTRODUCCIÓN

El problema de reconocimiento automático del habla en señales de audio se ha tratado regularmente a través del modelado de las señales, utilizando técnicas como Redes Neuronales [14] o modelos ocultos de Markov [19], las cuales reportan buenos resultados en la literatura. Sin embargo, cuando las condiciones acústicas son adversas, su desempeño se ve afectado. Recientemente, el reconocimiento audiovisual del habla se ha convertido en un campo activo de investigación gracias a los avances en áreas como el procesamiento digital de señales, la visión de máquina y el reconocimiento de patrones [16, 22]. Su objetivo final es permitir la comunicación hombre-máquina usando información audiovisual del habla para combatir las dificultades de un ambiente ruidoso o para tratar de reconocer las emociones exhibidas por el locutor.

Se sabe de los sistemas de comunicación que el análisis visual de la región de la boca del hablante suministra información importante. En particular, los humanos visualizamos el contorno de los labios para mejorar la comprensión del habla [7]. En los trabajos de Campbell [3] se muestra que cuando el oyente tiene información visual de la región de la boca del hablante, la relación señal a ruido (SNR) puede incrementarse hasta en 15 dB.

Este documento es un artículo elaborado por Alexander Ceballos, Andrés F. Serna-Morales, Juan B. Gómez (Universidad Nacional de Colombia Sede Manizales. Manizales, Colombia), Flavio Prieto (Universidad Nacional de Colombia Sede Bogotá. Bogotá, Colombia) y Tanneguy Redarce (Laboratoire Ampère, Institut National des Sciences Appliquées. Lyon, France) para INGENIARE. Revista Chilena de Ingeniería Vol 19, Núm 2. Publicación de la Universidad de Tarapacá, Chile. Contacto: [email protected]