Detectar casi duplicados en la web es un reto debido a su volumen y variedad. La mayoría de los estudios anteriores requieren el establecimiento de parámetros de entrada, lo que dificulta su robustez en diversos escenarios sin un ajuste cuidadoso. Recientemente, una métrica de similitud universal y sin parámetros, la distancia de compresión normalizada o NCD, se ha empleado con eficacia en diversas aplicaciones. Sin embargo, existen problemas que impiden que la NCD se aplique a conjuntos de datos medianos y grandes, ya que carece de eficacia y tiende a verse sesgada por el gran tamaño de los objetos. Para que este método sin parámetros sea viable en un corpus grande de documentos web, proponemos un nuevo método llamado SigNCD que mide la NCD basándose en firmas ligeras en lugar de documentos completos, lo que mejora la eficiencia y la estabilidad. Derivamos varios límites inferiores de NCD y proponemos políticas de poda para reducir aún más la complejidad computacional. Evaluamos SigNCD en conjuntos de datos ingleses y chinos y mostramos un aumento de la puntuación F1 en comparación con el método NCD original y una reducción significativa del tiempo de ejecución. Las comparaciones con otros métodos de la competencia también demuestran la superioridad de nuestro método. Además, en SigNCD no es necesario ajustar ningún parámetro, excepto el umbral de similitud.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Un Método de Visualización Eficiente e Interpretable de Coincidencia de Datos Estructurales Multidimensionales Basado en Solicitantes de Empleo y Posiciones
Artículo:
Algoritmos numéricos para calcular los valores propios de un sistema discontinuo de Dirac utilizando el método Sinc-Gaussiano
Artículo:
Investigación sobre el algoritmo de restauración de imágenes con óptica adaptativa mediante el método de maximización de la expectativa mejorado.
Artículo:
Detección de marcas de agua aditivas en el dominio NSCT mediante la prueba de hipótesis RAO y la distribución de Cauchy
Artículo:
Teoremas de punto de coincidencia acoplado y punto fijo acoplado a través de contracciones de tipo Meir-Keeler generalizadas.
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Libro:
Ergonomía en los sistemas de trabajo