Biblioteca122.294 documentos en línea

Artículo

Using Morphological Data in Language Modeling for Serbian Large Vocabulary Speech RecognitionUso de datos morfológicos en el modelado del lenguaje para el reconocimiento del habla en serbio de gran vocabulario

Resumen

El serbio forma parte de un grupo de lenguas altamente flexivas y morfológicamente ricas que utilizan muchos sufijos de palabras diferentes para expresar distintas características gramaticales, sintácticas o semánticas. Este tipo de comportamiento suele producir muchos errores de reconocimiento, sobre todo en los sistemas de gran vocabulario: incluso cuando, debido a una buena concordancia acústica, el sistema de reconocimiento automático del habla predice el lema correcto, a menudo se produce una terminación de palabra errónea, que sin embargo se contabiliza como un error. Este efecto es mayor en los contextos que no están presentes en el corpus de entrenamiento del modelo lingüístico. En este manuscrito, se examina un enfoque que tiene en cuenta diferentes categorías morfológicas de palabras para el modelado del lenguaje, y se presentan los beneficios en términos de tasas de error de palabras y perplejidades. Estas categorías incluyen el tipo de palabra, el caso de la palabra, el número gramatical y el género, y todas ellas se asignaron a las palabras del vocabulario del sistema, en su caso. Estas características adicionales de las palabras ayudaron a producir mejoras significativas en relación con el sistema de referencia, tanto para los modelos lingüísticos basados en n-gramas como en redes neuronales. El sistema propuesto puede ayudar a superar muchos errores tediosos en un sistema de gran vocabulario, por ejemplo, para el dictado, tanto para el serbio como para otras lenguas de características similares.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento