Los datos son una fuente importante de descubrimiento de conocimiento, pero la existencia de datos duplicados similares no solo aumenta la redundancia de la base de datos, sino que también afecta el trabajo posterior de minería de datos. Limpiar datos duplicados similares es útil para mejorar la eficiencia del trabajo. Basándose en la complejidad del idioma chino y el cuello de botella del sistema de una sola máquina para el rendimiento de computación de datos a gran escala, este artículo propone un método de limpieza de datos chinos que combina el modelo BERT y un algoritmo de agrupamiento k-means y proporciona un esquema de implementación paralela del algoritmo. En el proceso de texto a vector, se introduce el vector de posición para obtener las características contextuales de las palabras, y el vector se ajusta dinámicamente según la semántica para que las palabras polisémicas puedan obtener representaciones vectoriales diferentes en diferentes contextos. Al mismo tiempo, la implementación paralela del proceso está diseñada en base a Hadoop. Después de eso, se utiliza el algorit
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Recomendación de servicios IoT multiplataforma con conciencia del tiempo y preservación de la privacidad
Artículo:
Tecnología de plataforma de control de dispositivos portátiles para el desarrollo de aplicaciones de red
Artículo:
Codificación del conocimiento en las mecánicas de juego: Aprendizaje de conocimientos orientado a la transferencia en Desktop-3D y VR
Artículo:
Una cadena: Un sistema de autenticación descentralizado basado en blockchain para el IoT habilitado para 5G
Artículo:
Herramienta programada para cuantificar la fiabilidad y su aplicación en el diseño de sistemas de circuitos