En la integración de datos, la resolución de entidades es una técnica importante para mejorar la calidad de los datos. Las investigaciones existentes suelen suponer que el conjunto de datos de destino sólo contiene datos de tipo cadena y utilizan una única métrica de similitud. En el caso de conjuntos de datos de gran tamaño y alta dimensión, la información redundante debe verificarse mediante técnicas tradicionales de bloqueo o ventana. En este trabajo, proponemos un novedoso método de resolución de ER que utiliza un enfoque híbrido, incluyendo multibloques basados en tipos, un tamaño de ventana variable y una métrica de similitud más flexible. En nuestro nuevo flujo de trabajo ER, reducimos el espacio de búsqueda de pares de entidades mediante la restricción de atributos redundantes y la probabilidad de coincidencia. Desarrollamos una implementación de referencia de nuestro enfoque propuesto y validamos su rendimiento utilizando un conjunto de datos reales de un proyecto del Internet de las Cosas. Evaluamos el sistema de procesamiento de datos utilizando cinco métricas estándar que incluyen eficacia, eficiencia, exactitud, recuperación y precisión. Los resultados experimentales indican que el enfoque propuesto podría ser una alternativa prometedora para la resolución de entidades y podría aplicarse de forma viable en la limpieza de datos del mundo real para grandes conjuntos de datos.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Predicción de ataques epilépticos mediante el análisis de series temporales de señales de EEG utilizando un clasificador k-NN
Artículos:
Plataforma de Telemedicina de Código Abierto para Comunicación de Video Médico Inalámbrico.
Artículos:
Investigación sobre la aplicación de la tecnología de detección visual en la educación artística
Artículos:
Nanofibras medicinales fabricadas utilizando soluciones de NaCl como fluidos de cubierta en electrospinning coaxial modificado
Artículos:
Perlas nanomagnéticas de óxido ferroso funcionalizadas para la extracción de ácido nucleico y su aplicación en el cribado precoz del cáncer colorrectal
Artículos:
Comportamiento del aguacate Hass liofilizado durante la operación de rehidratación
Artículos:
Caracterización estructural de la materia orgánica de tres suelos provenientes del municipio de Aquitania-Boyacá, Colombia
Informes y Reportes:
Técnicas de recuperación de suelos contaminados
Artículos:
Una revisión de la etiopatogenia y características clínicas e histopatológicas del melanoma mucoso oral.