Biblioteca122.739 documentos en línea

Artículo

Effective and Fast Near Duplicate Detection via Signature-Based Compression MetricsDetección eficaz y rápida de casi duplicados mediante métricas de compresión basadas en firmas

Resumen

Detectar casi duplicados en la web es un reto debido a su volumen y variedad. La mayoría de los estudios anteriores requieren el establecimiento de parámetros de entrada, lo que dificulta su robustez en diversos escenarios sin un ajuste cuidadoso. Recientemente, una métrica de similitud universal y sin parámetros, la distancia de compresión normalizada o NCD, se ha empleado con eficacia en diversas aplicaciones. Sin embargo, existen problemas que impiden que la NCD se aplique a conjuntos de datos medianos y grandes, ya que carece de eficacia y tiende a verse sesgada por el gran tamaño de los objetos. Para que este método sin parámetros sea viable en un corpus grande de documentos web, proponemos un nuevo método llamado SigNCD que mide la NCD basándose en firmas ligeras en lugar de documentos completos, lo que mejora la eficiencia y la estabilidad. Derivamos varios límites inferiores de NCD y proponemos políticas de poda para reducir aún más la complejidad computacional. Evaluamos SigNCD en conjuntos de datos ingleses y chinos y mostramos un aumento de la puntuación F1 en comparación con el método NCD original y una reducción significativa del tiempo de ejecución. Las comparaciones con otros métodos de la competencia también demuestran la superioridad de nuestro método. Además, en SigNCD no es necesario ajustar ningún parámetro, excepto el umbral de similitud.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento