Biblioteca122.294 documentos en línea

Artículo

Improving Loanword Identification in Low-Resource Language with Data Augmentation and Multiple Feature FusionMejora de la identificación de palabras clave en un idioma con pocos recursos mediante el aumento de datos y la fusión de múltiples características

Resumen

La identificación de palabras prestadas se ha estudiado en los últimos años para aliviar la escasez de datos en varias tareas de procesamiento del lenguaje natural (PLN), como la traducción automática, la recuperación de información multilingüe, etc. Sin embargo, los estudios recientes sobre este tema suelen centrar sus esfuerzos en las lenguas de alto nivel de recursos (como el chino, el inglés y el ruso); en el caso de las lenguas de bajo nivel de recursos, como el uigur y el mongol, debido a la limitación de recursos y a la falta de datos anotados, la identificación de palabras de préstamo en estas lenguas tiende a tener un menor rendimiento. Para superar este problema, primero proponemos un método de aumento de datos basado en restricciones léxicas para generar datos de entrenamiento para la identificación de palabras de préstamo en lenguas de bajo recurso; después, se introduce un modelo de identificación de palabras de préstamo basado en una RNN logarítmica-lineal para mejorar el rendimiento de la identificación de palabras de préstamo en lenguas de bajo recurso mediante la incorporación de características como incrustaciones a nivel de palabra, incrustaciones a nivel de carácter, similitud de pronunciación y partes del habla (POS) en un modelo. Los resultados experimentales sobre la identificación de palabras de préstamo en uigur (en este estudio, nos centramos principalmente en las palabras de préstamo árabes, chinas, rusas y turcas en uigur) mostraron que nuestro método propuesto logra el mejor rendimiento en comparación con varios sistemas de referencia fuertes.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento