Biblioteca122.739 documentos en línea

Artículo

Detecting Web Spam Based on Novel Features from Web Page Source CodeDetección del spam en la web a partir de características novedosas del código fuente de las páginas web

Resumen

El motor de búsqueda es crítico en la vida diaria de las personas porque determina la calidad de la información que las personas obtienen al buscar. La feroz competencia por el ranking en los motores de búsqueda no es beneficiosa ni para los usuarios ni para los motores de búsqueda. La investigación existente principalmente estudia el contenido y los enlaces de los sitios web. Sin embargo, ninguna de estas técnicas se enfoca en el análisis semántico del enlace y el texto del ancla para la detección. En este documento, proponemos un método de detección de spam web extrayendo conjuntos de características novedosas del código fuente de la página de inicio y eligiendo el bosque aleatorio (RF) como clasificador. Las características novedosas se extraen de los enlaces de las páginas de inicio, la estructura del lenguaje de marcado de hipertexto (HTML) y la similitud semántica del contenido. Realizamos experimentos en el conjunto de datos WEBSPAM-UK2007 y UK-2011 utilizando un método de validación cruzada de cinco pliegues. Además, diseñamos tres conjuntos de experiment

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento