La traducción de voz (ST) es una tarea de conversión bimodal del habla de origen al texto de destino. Generalmente, los sistemas de ST basados en aprendizaje profundo requieren datos de entrenamiento suficientes para obtener un resultado competitivo, incluso con un modelo de última generación. Sin embargo, los datos de entrenamiento suelen ser incapaces de cumplir con la condición de completitud debido a los problemas de muestras pequeñas. La mayoría de las tareas de ST de recursos limitados mejoran la integridad de los datos con un solo modelo, pero esta optimización tiene una sola dimensión y una efectividad limitada. En contraste, la multimodalidad se introduce para aprovechar diferentes dimensiones de características de datos para modelado multiperspectiva. Este enfoque aborda mutuamente las brechas en las diferentes modalidades para mejorar la representación de los datos y mejorar la utilización de las muestras de entrenamiento. Por lo tanto, es un nuevo desafío aprovechar la enorme información multimodal fuera del dominio para mejorar las tareas de recursos limitados. Este artículo describe cómo utilizar la información multimodal fuera del dominio para mejorar los
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Análisis personalizado y recomendación del Índice de Evaluación Estética de la Música de Baile basado en algoritmos inteligentes.
Artículo:
Diseño e implementación de simulación de cuantificación del paisaje vocal en realidad virtual basada en computación en nube
Artículo:
Una nueva tecnología de generación inalámbrica para la transmisión de video.
Artículo:
Fusión genética de características para la detección de esqueletos de objetos
Artículo:
Un sistema de identificación biométrica eficiente y que preserva la privacidad basado en el árbol FITing