La mayoría de los modelos de localización de fuentes de habla binaural tienen un rendimiento deficiente en situaciones inusualmente ruidosas y reverberantes. Aquí, este problema se aborda modelando una red neuronal convolucional (CNN) dilatada multisegmentada. La función de correlación cruzada relacionada con el tiempo (CCF) y las diferencias de nivel interaural relacionadas con la energía (ILD) se preprocesan en ramas separadas de la red convolucional dilatada. La CNN dilatada multisegmentada puede codificar representaciones discriminativas para CCF e ILD, respectivamente. Después de la codificación, las representaciones interaurales individuales se fusionan para mapear la dirección de la fuente. Además, para mejorar la adaptación de parámetros, se propone una nueva entropía semiadaptativa para entrenar la red bajo restricciones direccionales. Los resultados experimentales muestran que el método propuesto puede localizar de manera adaptativa fuentes de habla en entornos ruidosos y reverberantes simulados.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Máquina de interacción profunda consciente del campo para la predicción de la tasa de clics
Artículo:
Tecnología de detección de seguridad de Internet de las cosas basada en el algoritmo de decisión de asociación gris
Artículo:
Las condiciones de optimalidad de Karush-Kuhn-Tucker para los problemas de optimización difusa en el espacio cociente de números difusos.
Artículo:
Un Modelo de Red Neuronal de Poda Orientado a la Evolución Diferencial para la Predicción de Quiebras
Artículo:
Un Método de Extracción de Relaciones de Entidades Chinas Basado en el Modelo de Máxima Entropía Markov Bidireccional