Los datos son una fuente importante de descubrimiento de conocimiento, pero la existencia de datos duplicados similares no solo aumenta la redundancia de la base de datos, sino que también afecta el trabajo posterior de minería de datos. Limpiar datos duplicados similares es útil para mejorar la eficiencia del trabajo. Basándose en la complejidad del idioma chino y el cuello de botella del sistema de una sola máquina para el rendimiento de computación de datos a gran escala, este artículo propone un método de limpieza de datos chinos que combina el modelo BERT y un algoritmo de agrupamiento k-means y proporciona un esquema de implementación paralela del algoritmo. En el proceso de texto a vector, se introduce el vector de posición para obtener las características contextuales de las palabras, y el vector se ajusta dinámicamente según la semántica para que las palabras polisémicas puedan obtener representaciones vectoriales diferentes en diferentes contextos. Al mismo tiempo, la implementación paralela del proceso está diseñada en base a Hadoop. Después de eso, se utiliza el algorit
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Una técnica eficiente para el proceso de partición hardware/software en codesign.
Artículo:
Algoritmo en cascada para la evaluación de la calidad y la eliminación de ruido de imágenes basado en CNN para la seguridad y autorización de imágenes
Artículo:
DSCP: Localización pasiva en interiores basada en convolución separable por profundidad utilizando huellas dactilares de CSI
Artículo:
Investigación experimental y simulación numérica de la acumulación de nieve en un techo retráctil de gran envergadura típico.
Artículo:
Etiquetado de muestras de entrenamiento utilizando anotación de multitudes para recomendación.
Artículo:
Análisis ABC en la gestión de inventarios : aplicación de la metodología en un caso específico
Artículo:
Metodología six-sigma : calidad Industrial
Artículo:
Aplicación de seis sigmas integradas con AMEF y QFD en el proceso de fabricación y distribución de muebles
Artículo:
Mejora de procesos de producción a través de la gestión de riesgos y herramientas estadísticas