La clasificación de textos tiene muchas aplicaciones en el procesamiento de textos y la recuperación de información. El aprendizaje basado en instancias (IBL) es uno de los métodos de clasificación de textos más eficaces. Sin embargo, su eficacia depende de la función de distancia que utilice para determinar la similitud de los documentos. En este estudio, evaluamos el rendimiento de algunas medidas de distancia populares y proponemos otras nuevas que explotan las frecuencias de las palabras y la relación ordinal entre ellas. En particular, proponemos nuevas medidas de distancia que se basan en la métrica de distancia de valor (VDM) y la medida de distancia de clase específica invertida (ISCDM). Las medidas propuestas son adecuadas para documentos representados como vectores de frecuencias de palabras. Comparamos el rendimiento de estas medidas con sus homólogas originales y con potentes algoritmos de clasificación de textos basados en Naïve Bayesian. Evaluamos las medidas de distancia propuestas utilizando el algoritmo kNN en 18 conjuntos de datos de clasificación de textos de referencia. Nuestros resultados empíricos revelan que las métricas de distancia para valores nominales ofrecen mejores resultados de clasificación de textos que la medida de distancia euclidiana para valores numéricos. Además, nuestros resultados indican que ISCDM supera sustancialmente a VDM, pero también es más susceptible de aprovechar la naturaleza ordinal de las frecuencias de los términos que VDM. Así, pudimos proponer más medidas de distancia basadas en ISCDM para la clasificación de textos que en VDM. También comparamos las medidas de distancia propuestas con la clasificación de textos basada en Naïve Bayes, es decir, Naïve Bayes multinomial (MNB), Naïve Bayes complementario (CNB) y el modelo uno contra uno (OVA). Resulta que cuando kNN utiliza algunas de las medidas propuestas, supera a los clasificadores de texto basados en NB en la mayoría de los conjuntos de datos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Falta de asociación significativa entre la expresión de miR-221 en plasma/suero y la mala supervivencia del carcinoma: un metaanálisis
Artículos:
Síntesis y caracterización de poliimidas semicristalinas con enlaces puente
Artículos:
Comportamiento y cinética de adsorción de la zearalenona en la montmorillonita intercalada con hidroxilo-Fe-Al
Artículos:
Procesamiento de imágenes afectivas: Un estudio basado en la red de conectividad funcional en la corteza cerebral
Artículos:
Medición en línea y clasificación por tamaños de perillas mediante visión artificial
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.