Biblioteca122.739 documentos en línea

Artículo

Improving I/O Efficiency in Hadoop-Based Massive Data Analysis ProgramsMejorando la Eficiencia de E/S en Programas de Análisis de Datos Masivos Basados en Hadoop

Resumen

Apache Hadoop ha sido una herramienta popular de procesamiento paralelo en la era de los grandes datos. Si bien los practicantes han reescrito muchos algoritmos de análisis convencionales para adaptarlos a Hadoop, el problema de la ineficiencia de E/S en los programas basados en Hadoop ha sido reportado repetidamente en la literatura. En este artículo, abordamos el problema de la ineficiencia de la E/S en el análisis masivo de datos basado en Hadoop presentando nuestra modificación eficiente de Hadoop. Primero incorporamos un diseño de datos columnar en el marco convencional de Hadoop, sin ninguna modificación de los componentes internos de Hadoop. También dotamos a Hadoop de capacidad de indexación para ahorrar una gran cantidad de E/S al procesar no solo predicados de selección, sino también consultas de unión estrella que se utilizan con frecuencia en muchas tareas de análisis.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento