Biblioteca122.294 documentos en línea

Artículo

Improved Distance Functions for Instance-Based Text ClassificationFunciones de distancia mejoradas para la clasificación de textos basada en instancias

Resumen

La clasificación de textos tiene muchas aplicaciones en el procesamiento de textos y la recuperación de información. El aprendizaje basado en instancias (IBL) es uno de los métodos de clasificación de textos más eficaces. Sin embargo, su eficacia depende de la función de distancia que utilice para determinar la similitud de los documentos. En este estudio, evaluamos el rendimiento de algunas medidas de distancia populares y proponemos otras nuevas que explotan las frecuencias de las palabras y la relación ordinal entre ellas. En particular, proponemos nuevas medidas de distancia que se basan en la métrica de distancia de valor (VDM) y la medida de distancia de clase específica invertida (ISCDM). Las medidas propuestas son adecuadas para documentos representados como vectores de frecuencias de palabras. Comparamos el rendimiento de estas medidas con sus homólogas originales y con potentes algoritmos de clasificación de textos basados en Naïve Bayesian. Evaluamos las medidas de distancia propuestas utilizando el algoritmo kNN en 18 conjuntos de datos de clasificación de textos de referencia. Nuestros resultados empíricos revelan que las métricas de distancia para valores nominales ofrecen mejores resultados de clasificación de textos que la medida de distancia euclidiana para valores numéricos. Además, nuestros resultados indican que ISCDM supera sustancialmente a VDM, pero también es más susceptible de aprovechar la naturaleza ordinal de las frecuencias de los términos que VDM. Así, pudimos proponer más medidas de distancia basadas en ISCDM para la clasificación de textos que en VDM. También comparamos las medidas de distancia propuestas con la clasificación de textos basada en Naïve Bayes, es decir, Naïve Bayes multinomial (MNB), Naïve Bayes complementario (CNB) y el modelo uno contra uno (OVA). Resulta que cuando kNN utiliza algunas de las medidas propuestas, supera a los clasificadores de texto basados en NB en la mayoría de los conjuntos de datos.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento