Biblioteca122.739 documentos en línea

Artículo

Distributional Similarity for Chinese: Exploiting Characters and RadicalsSimilitud de distribución en chino: Explotación de caracteres y radicales

Resumen

La similitud distribucional ha atraído una atención considerable en el campo del procesamiento del lenguaje natural como medio automático de contrarrestar el omnipresente problema de los datos dispersos. Como lengua logográfica, las palabras chinas están formadas por caracteres y cada uno de ellos se compone de uno o más radicales. Los significados de los caracteres suelen estar muy relacionados con las palabras que los contienen. Asimismo, los radicales suelen contribuir de forma predecible al significado de un carácter: los caracteres que tienen los mismos componentes tienden a tener significados similares o relacionados. En este artículo, utilizamos estas propiedades de la lengua china para mejorar el cálculo de la similitud de las palabras chinas. Dada una palabra de contenido, primero extraemos palabras similares basándonos en un corpus amplio y una puntuación de similitud para clasificarlas. A continuación, ajustamos esta clasificación en función de los caracteres y componentes compartidos entre la palabra similar y la palabra objetivo. Los experimentos con dos conjuntos de datos de referencia demuestran que el rango ajustado es superior y se aproxima más a los juicios humanos que el rango original. Además de la evaluación cuantitativa, examinamos las razones que explican los errores basándonos en fenómenos lingüísticos.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento