Biblioteca122.294 documentos en línea

Artículo

Hierarchical Contaminated Web Page Classification Based on Meta Tag Denoising DisposalClasificación jerárquica de páginas web contaminadas basada en la eliminación de metaetiquetas mediante eliminación de ruido

Resumen

La clasificación de páginas web es fundamental para la recuperación de información. La mayoría de los métodos de clasificación de páginas web tienen los siguientes dos defectos: (1) necesitan analizar en función de la página web en su totalidad y (2) no prestan suficiente atención a la existencia de información ruidosa dentro de la página web, lo que disminuirá la eficiencia y el rendimiento de la clasificación, especialmente al clasificar la página web contaminada. Para resolver estos problemas, este artículo propone un algoritmo de eliminación de ruido. Elegimos el método de arriba hacia abajo para la clasificación jerárquica con el fin de mejorar la eficiencia de predicción. Los resultados experimentales demuestran que nuestro método es aproximadamente 7 veces más rápido que el método de página completa y logra buenos resultados de clasificación en la mayoría de las categorías. La precisión de las 7 categorías principales es superior al 88% y es un 24% más alta que el otro método basado en etiquetas meta en promedio.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento