Biblioteca122.739 documentos en línea

Artículo

Handling Data Skew in MapReduce Cluster by Using Partition TuningGestión de la asimetría de datos en clústeres MapReduce mediante el ajuste de particiones

Resumen

El sector sanitario ha generado grandes cantidades de datos y su análisis se ha convertido en un problema importante en los últimos años. El modelo de programación MapReduce se ha utilizado con éxito para el análisis de grandes volúmenes de datos. Sin embargo, en el análisis de grandes volúmenes de datos se produce siempre una desviación de los datos que afecta gravemente a la eficiencia. Para superar el problema de la inclinación de los datos en MapReduce, en el pasado propusimos un algoritmo de procesamiento de datos llamado Partition Tuning-based Skew Handling (PTSH). En comparación con la estrategia de particionamiento de una etapa utilizada en el modelo MapReduce tradicional, PTSH utiliza una estrategia de dos etapas y el método de ajuste de partición para dispersar pares clave-valor en particiones virtuales y recombina cada partición en caso de sesgo de datos. La robustez y eficiencia del algoritmo propuesto se probaron en una amplia variedad de conjuntos de datos simulados y conjuntos de datos sanitarios reales. Los resultados mostraron que el algoritmo PTSH puede manejar la asimetría de datos en MapReduce de manera eficiente y mejorar el rendimiento de los trabajos de MapReduce en comparación con el Hadoop nativo, Closer, y la partición de claves consciente de la localidad y consciente de la equidad (LEEN). También descubrimos que el tiempo necesario para la extracción de reglas puede reducirse significativamente mediante la adopción del algoritmo PTSH, ya que es más adecuado para la minería de reglas de asociación (ARM) en datos sanitarios.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento