Los datos son una fuente importante de descubrimiento de conocimiento, pero la existencia de datos duplicados similares no solo aumenta la redundancia de la base de datos, sino que también afecta el trabajo posterior de minería de datos. Limpiar datos duplicados similares es útil para mejorar la eficiencia del trabajo. Basándose en la complejidad del idioma chino y el cuello de botella del sistema de una sola máquina para el rendimiento de computación de datos a gran escala, este artículo propone un método de limpieza de datos chinos que combina el modelo BERT y un algoritmo de agrupamiento k-means y proporciona un esquema de implementación paralela del algoritmo. En el proceso de texto a vector, se introduce el vector de posición para obtener las características contextuales de las palabras, y el vector se ajusta dinámicamente según la semántica para que las palabras polisémicas puedan obtener representaciones vectoriales diferentes en diferentes contextos. Al mismo tiempo, la implementación paralela del proceso está diseñada en base a Hadoop. Después de eso, se utiliza el algorit
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
CPSFS: un sistema creíble de filtrado personalizado de spam mediante crowdsourcing
Artículo:
Conceptos multimedia sobre detección y reconocimiento de objetos con simulación de coche de F1 utilizando capas convolucionales.
Artículo:
Maximización de la tasa de suma de comunicaciones D2D en red de radio cognitiva mediante estrategia de engaño
Artículo:
Método eficiente de recolección de datos en redes de sensores
Artículo:
Estimación de la capacidad del canal IEEE 802.15.4 basada en Contiki y adecuación de su protocolo de capa MAC CSMA-CA para aplicaciones multimedia en tiempo real
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Libro:
Ergonomía en los sistemas de trabajo
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Los web services como herramienta generadora de valor en las organizaciones