Biblioteca122.294 documentos en línea

Artículo

A Type-Based Blocking Technique for Efficient Entity Resolution over Large-Scale DataUna técnica de bloqueo basada en tipos para la resolución eficaz de entidades en datos a gran escala

Resumen

En la integración de datos, la resolución de entidades es una técnica importante para mejorar la calidad de los datos. Las investigaciones existentes suelen suponer que el conjunto de datos de destino sólo contiene datos de tipo cadena y utilizan una única métrica de similitud. En el caso de conjuntos de datos de gran tamaño y alta dimensión, la información redundante debe verificarse mediante técnicas tradicionales de bloqueo o ventana. En este trabajo, proponemos un novedoso método de resolución de ER que utiliza un enfoque híbrido, incluyendo multibloques basados en tipos, un tamaño de ventana variable y una métrica de similitud más flexible. En nuestro nuevo flujo de trabajo ER, reducimos el espacio de búsqueda de pares de entidades mediante la restricción de atributos redundantes y la probabilidad de coincidencia. Desarrollamos una implementación de referencia de nuestro enfoque propuesto y validamos su rendimiento utilizando un conjunto de datos reales de un proyecto del Internet de las Cosas. Evaluamos el sistema de procesamiento de datos utilizando cinco métricas estándar que incluyen eficacia, eficiencia, exactitud, recuperación y precisión. Los resultados experimentales indican que el enfoque propuesto podría ser una alternativa prometedora para la resolución de entidades y podría aplicarse de forma viable en la limpieza de datos del mundo real para grandes conjuntos de datos.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento