Ficha técnica

22 | 0

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Artículos

Parallel Cleaning Algorithm for Similar Duplicate Chinese Data Based on BERTAlgoritmo de limpieza paralela para datos chinos duplicados similares basado en BERT

Resumen

Los datos son una fuente importante de descubrimiento de conocimiento, pero la existencia de datos duplicados similares no solo aumenta la redundancia de la base de datos, sino que también afecta el trabajo posterior de minería de datos. Limpiar datos duplicados similares es útil para mejorar la eficiencia del trabajo. Basándose en la complejidad del idioma chino y el cuello de botella del sistema de una sola máquina para el rendimiento de computación de datos a gran escala, este artículo propone un método de limpieza de datos chinos que combina el modelo BERT y un algoritmo de agrupamiento k-means y proporciona un esquema de implementación paralela del algoritmo. En el proceso de texto a vector, se introduce el vector de posición para obtener las características contextuales de las palabras, y el vector se ajusta dinámicamente según la semántica para que las palabras polisémicas puedan obtener representaciones vectoriales diferentes en diferentes contextos. Al mismo tiempo, la implementación paralela del proceso está diseñada en base a Hadoop. Después de eso, se utiliza el algorit

Materias:Colonias de abejas artificiales Inteligencia artificial PatrÃ³n espacial InnovaciÃ³n de la comunicaciÃ³n Algoritmo de red neuronal
Subjects:Artificial bee colonies Artificial intelligence Spatial pattern Communication innovation Neural network algorithm
Palabras claves:Datos; Datos duplicados; Método de limpieza; Modelo BERT; Algoritmo de clustering k-means; Implementación paralela
Keywords:Data; Duplicate data; Cleaning method; BERT model; K-means clustering algorithm; Parallel implementation

Autor:Li, Biqiu; Wang, Jiabin; Liu, Xueli.
Categoría:Ciencias aplicadas e interdisciplinarias
Subcategoría:Ingeniería de sistemas
Año de publicación:2021.
Editor:Hindawi

Tipo de documento:
Formato:pdf
Idioma:Inglés
Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no estï¿½ disponible para su tipo de suscripciï¿½n

DC.Title.spa

Parallel Cleaning Algorithm for Similar Duplicate Chinese Data Based on BERT

DC.Title.eng

Algoritmo de limpieza paralela para datos chinos duplicados similares basado en BERT

DC.Creator

Li, Biqiu; Wang, Jiabin; Liu, Xueli

DC.Subject.snpi.spa

Colonias de abejas artificiales Inteligencia artificial PatrÃ³n espacial InnovaciÃ³n de la comunicaciÃ³n Algoritmo de red neuronal

DC.Subject.snpi.eng

Artificial bee colonies Artificial intelligence Spatial pattern Communication innovation Neural network algorithm

DC.Subject.spa

Datos; Datos duplicados; Método de limpieza; Modelo BERT; Algoritmo de clustering k-means; Implementación paralela

DC.Subject.eng

Data; Duplicate data; Cleaning method; BERT model; K-means clustering algorithm; Parallel implementation

DC.Description.spa

DC.Source

https://www.hindawi.com/journals/sp/2021/5916748

DC.Identifier.virtualpro

http://www.revistavirtualpro.com/biblioteca/algoritmo-de-limpieza-paralela-para-datos-chinos-duplicados-similares-basado-en-bert-135060

DC.Identifier.issn-isbn

ISSN:1058-9244

DC.Identifier.citacion

Revista Virtual Pro, ,

DC.Language

Inglés

DC.Relation

DC.Publisher

Hindawi

DC.Contributor

DC.Rights

Derechos de autor:6

DC.Date

2021

DC.Type

Artículos

DC.Format

pdf

DC.Identifier.file

https://downloads.hindawi.com/journals/sp/2021/5916748.pdf

Ficha técnica
Metadata
Imprimir
Descargar
Reportar error

Información del documento

Titulo:Parallel Cleaning Algorithm for Similar Duplicate Chinese Data Based on BERT
Autor:Li, Biqiu; Wang, Jiabin; Liu, Xueli
Tipo:Artículos
Año:2021
Idioma:Inglés
Editor:Hindawi
Materias:Colonias de abejas artificiales Inteligencia artificial PatrÃ³n espacial InnovaciÃ³n de la comunicaciÃ³n Algoritmo de red neuronal
Descarga:0