La traducción de voz (ST) es una tarea de conversión bimodal del habla de origen al texto de destino. Generalmente, los sistemas de ST basados en aprendizaje profundo requieren datos de entrenamiento suficientes para obtener un resultado competitivo, incluso con un modelo de última generación. Sin embargo, los datos de entrenamiento suelen ser incapaces de cumplir con la condición de completitud debido a los problemas de muestras pequeñas. La mayoría de las tareas de ST de recursos limitados mejoran la integridad de los datos con un solo modelo, pero esta optimización tiene una sola dimensión y una efectividad limitada. En contraste, la multimodalidad se introduce para aprovechar diferentes dimensiones de características de datos para modelado multiperspectiva. Este enfoque aborda mutuamente las brechas en las diferentes modalidades para mejorar la representación de los datos y mejorar la utilización de las muestras de entrenamiento. Por lo tanto, es un nuevo desafío aprovechar la enorme información multimodal fuera del dominio para mejorar las tareas de recursos limitados. Este artículo describe cómo utilizar la información multimodal fuera del dominio para mejorar los
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Análisis en tiempo discreto de las redes de radio cognitiva con una fuente no saturada de usuarios secundarios.
Artículo:
Descomposición de Tensor para la Clasificación de Instancias Múltiples de Datos Médicos de Orden Superior
Artículo:
Attribute-Guard: Marco de control de acceso al flujo basado en atributos en redes definidas por software
Artículo:
Imagen molecular de tomografía por emisión de positrones basada en aprendizaje profundo en la evaluación de disfunción cognitiva en pacientes con epilepsia
Artículo:
Un sistema de gestión editorial basado en blockchain