Biblioteca122.739 documentos en línea

Artículo

Voice Keyword Retrieval Method Using Attention Mechanism and Multimodal Information FusionMétodo de recuperación de palabras clave por voz utilizando mecanismo de atención y fusión de información multimodal.

Resumen

Se propone un método de recuperación de texto y voz entre modalidades cruzadas utilizando un codificador automático de convolución de aprendizaje interactivo (CAE). En primer lugar, se propone una estructura de autoencoder de aprendizaje interactivo, que incluye dos entradas de voz y texto, así como enlaces de procesamiento como codificación, interacción de capas ocultas y decodificación, para completar el modelado de la recuperación de texto y voz entre modalidades cruzadas. Luego, la señal de audio original se preprocesa y se extrae la característica de coeficiente cepstral de frecuencia de Mel (MFCC). Además, se utiliza el modelo de bolsa de palabras para extraer las características del texto, y luego se utiliza el mecanismo de atención para combinar las características del texto y de la voz. A través del aprendizaje interactivo CAE, se obtienen las características compartidas de las modalidades de voz y texto y luego se envían al clasificador modal para identificar la información modal, con el fin de realizar la recuperación de texto y voz entre modalidades cruzadas. Finalmente, los experimentos muestran

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento