La clasificación de textos tiene muchas aplicaciones en el procesamiento de textos y la recuperación de información. El aprendizaje basado en instancias (IBL) es uno de los métodos de clasificación de textos más eficaces. Sin embargo, su eficacia depende de la función de distancia que utilice para determinar la similitud de los documentos. En este estudio, evaluamos el rendimiento de algunas medidas de distancia populares y proponemos otras nuevas que explotan las frecuencias de las palabras y la relación ordinal entre ellas. En particular, proponemos nuevas medidas de distancia que se basan en la métrica de distancia de valor (VDM) y la medida de distancia de clase específica invertida (ISCDM). Las medidas propuestas son adecuadas para documentos representados como vectores de frecuencias de palabras. Comparamos el rendimiento de estas medidas con sus homólogas originales y con potentes algoritmos de clasificación de textos basados en Naïve Bayesian. Evaluamos las medidas de distancia propuestas utilizando el algoritmo kNN en 18 conjuntos de datos de clasificación de textos de referencia. Nuestros resultados empíricos revelan que las métricas de distancia para valores nominales ofrecen mejores resultados de clasificación de textos que la medida de distancia euclidiana para valores numéricos. Además, nuestros resultados indican que ISCDM supera sustancialmente a VDM, pero también es más susceptible de aprovechar la naturaleza ordinal de las frecuencias de los términos que VDM. Así, pudimos proponer más medidas de distancia basadas en ISCDM para la clasificación de textos que en VDM. También comparamos las medidas de distancia propuestas con la clasificación de textos basada en Naïve Bayes, es decir, Naïve Bayes multinomial (MNB), Naïve Bayes complementario (CNB) y el modelo uno contra uno (OVA). Resulta que cuando kNN utiliza algunas de las medidas propuestas, supera a los clasificadores de texto basados en NB en la mayoría de los conjuntos de datos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Nanotubos de carbono multipared decorados con nanopartículas de óxido de cobalto
Artículo:
Uso del algoritmo de búsqueda de armonía en redes neuronales para mejorar la detección de fraudes en el sistema bancario
Artículo:
Algoritmo mejorado de detección de ondas R en tiempo real para el análisis de señales de ECG de ejercicio
Artículo:
Aumento de los mapas cognitivos semánticos débiles con una dimensión de "abstracción"
Artículo:
Aplicación de la Varianza de Allan Dinámica Rápida Mejorada para la Caracterización del Giroscopio MEMS en UAV