En la integración de datos, la resolución de entidades es una técnica importante para mejorar la calidad de los datos. Las investigaciones existentes suelen suponer que el conjunto de datos de destino sólo contiene datos de tipo cadena y utilizan una única métrica de similitud. En el caso de conjuntos de datos de gran tamaño y alta dimensión, la información redundante debe verificarse mediante técnicas tradicionales de bloqueo o ventana. En este trabajo, proponemos un novedoso método de resolución de ER que utiliza un enfoque híbrido, incluyendo multibloques basados en tipos, un tamaño de ventana variable y una métrica de similitud más flexible. En nuestro nuevo flujo de trabajo ER, reducimos el espacio de búsqueda de pares de entidades mediante la restricción de atributos redundantes y la probabilidad de coincidencia. Desarrollamos una implementación de referencia de nuestro enfoque propuesto y validamos su rendimiento utilizando un conjunto de datos reales de un proyecto del Internet de las Cosas. Evaluamos el sistema de procesamiento de datos utilizando cinco métricas estándar que incluyen eficacia, eficiencia, exactitud, recuperación y precisión. Los resultados experimentales indican que el enfoque propuesto podría ser una alternativa prometedora para la resolución de entidades y podría aplicarse de forma viable en la limpieza de datos del mundo real para grandes conjuntos de datos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Algoritmo mejorado de extracción de parámetros de características del método de detección de compuestos basado en la teoría de la fusión
Video:
SFCM_09_16: Nuevos materiales cerámica-niobio con aplicaciones biomédicas.
Artículo:
Control coordinado basado en el análisis de la intención de movimiento para la interacción entre amputados y prótesis
Artículo:
Mejora del rendimiento de las células solares sensibilizadas por colorantes con una estructura bicapa de nanopartículas de grafeno/ZnO
Artículo:
Un Enfoque Sencillo para Lograr la Sincronización Proyectiva Modificada entre Dos Sistemas Caóticos Diferentes