La identificación de escrituras mixtas es un obstáculo para los sistemas automatizados de procesamiento del lenguaje natural. La mezcla de escrituras cursivas de diferentes idiomas es un reto porque los métodos de PLN, como el etiquetado POS y la desambiguación del sentido de las palabras, se ven afectados por el ruido del texto. Este estudio aborda el reto de la identificación de escrituras mixtas para un conjunto de datos de código mixto que consiste en urdu romano, hindi, saraiki, bengalí e inglés. El modelo de identificación de idiomas se entrena utilizando la vectorización de palabras y variantes de RNN. Además, a través de la investigación experimental, se optimizan diferentes arquitecturas para la tarea asociadas a la Memoria Larga de Corto Plazo (LSTM), la LSTM Bidireccional, la Unidad Recurrente Cerrada (GRU) y la Unidad Recurrente Cerrada Bidireccional (Bi-GRU). La experimentación logró la mayor precisión de 90,17 para Bi-GRU, aplicando las características de clase de palabras aprendidas junto con la incrustación con GloVe. Además, este estudio aborda las cuestiones relacionadas con los entornos multilingües, como las palabras romanas fusionadas con caracteres ingleses, la ortografía generativa y la escritura fonética.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Biocerámica de fosfato cálcico bifásico para reconstrucciones ortopédicas: Resultados clínicos
Conferencia:
Biotecnología (Inglés)
Artículo:
Fusión lineal local de sensores distribuidos para la detección de señales de impulsos débiles en un entorno caótico
Artículo:
Modelización del comportamiento de elección del modo de transporte incorporando los datos sociodemográficos del hogar y del individuo y los atributos del viaje basados en la teoría de los conjuntos aproximados
Artículo:
Nuevo modelo de predicción del COVID-19 en Arabia Saudí basado en un algoritmo LSTM