Biblioteca122.294 documentos en línea

Artículo

Leveraging Multimodal Out-of-Domain Information to Improve Low-Resource Speech TranslationAprovechamiento de la información multimodal fuera del dominio para mejorar la traducción de voz con pocos recursos

Resumen

La traducción de voz (ST) es una tarea de conversión bimodal del habla de origen al texto de destino. Generalmente, los sistemas de ST basados en aprendizaje profundo requieren datos de entrenamiento suficientes para obtener un resultado competitivo, incluso con un modelo de última generación. Sin embargo, los datos de entrenamiento suelen ser incapaces de cumplir con la condición de completitud debido a los problemas de muestras pequeñas. La mayoría de las tareas de ST de recursos limitados mejoran la integridad de los datos con un solo modelo, pero esta optimización tiene una sola dimensión y una efectividad limitada. En contraste, la multimodalidad se introduce para aprovechar diferentes dimensiones de características de datos para modelado multiperspectiva. Este enfoque aborda mutuamente las brechas en las diferentes modalidades para mejorar la representación de los datos y mejorar la utilización de las muestras de entrenamiento. Por lo tanto, es un nuevo desafío aprovechar la enorme información multimodal fuera del dominio para mejorar las tareas de recursos limitados. Este artículo describe cómo utilizar la información multimodal fuera del dominio para mejorar los

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento