Biblioteca122.739 documentos en línea

Artículo

Pseudotext Injection and Advance Filtering of Low-Resource Corpus for Neural Machine TranslationInyección de pseudotexto y filtrado anticipado de corpus de bajos recursos para la traducción automática neural

Resumen

La ampliación del procesamiento del lenguaje natural (PLN) a las lenguas de bajos recursos para mejorar el rendimiento de la traducción automática (TA) sigue siendo enigmática. Esta investigación contribuye a este campo con una traducción inglés-twi de bajos recursos basada en corpus sintéticos paralelos filtrados. A menudo resulta desconcertante aprender y comprender cómo es un corpus de buena calidad en condiciones de bajos recursos, principalmente cuando el corpus de destino es el único texto de muestra de la lengua paralela. Para mejorar el rendimiento de la MT en estos pares de idiomas con pocos recursos, proponemos ampliar los datos de entrenamiento inyectando un corpus sintético-paralelo obtenido mediante la traducción de un corpus monolingüe de la lengua de destino basado en bootstrapping con diferentes ajustes de parámetros. Además, realizamos mediciones no supervisadas en cada par de oraciones utilizando las distancias de Mahalanobis al cuadrado, una técnica de filtrado que predice el paralelismo de las oraciones. Además, utilizamos ampliamente tres métricas de similitud a nivel de frase tras la traducción de ida y vuelta. Los resultados experimentales sobre una cantidad diversa de corpus paralelos disponibles demuestran que la inyección de corpus pseudoparalelos y el filtrado extensivo con métricas de similitud a nivel de frase mejoran significativamente los sistemas de MT originales para pares de lenguas de bajo recurso. En comparación con las mejoras existentes en el mismo marco original bajo la misma estructura, nuestro enfoque muestra enormes avances en las puntuaciones BLEU y TER.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento