Biblioteca122.739 documentos en línea

Artículo

Query Execution Optimization in Spark SQLOptimización de la ejecución de consultas en Spark SQL

Resumen

Spark SQL es una herramienta de procesamiento de big data para consultas y análisis de datos estructurados. Sin embargo, debido a la ejecución de Spark SQL, hay múltiples ocasiones en las que se escribe datos intermedios en el disco, lo que reduce la eficiencia de ejecución de Spark SQL. Centrándonos en los problemas existentes, diseñamos e implementamos una capa de caché de datos intermedios entre el sistema de archivos subyacente y el núcleo superior de Spark para reducir el costo de E/S aleatoria en disco. Mediante el uso del módulo de preanálisis de consultas, podemos ajustar dinámicamente la capacidad de la capa de caché para diferentes consultas. Y el módulo de asignación puede asignar la memoria adecuada para cada nodo en el clúster. Según el intercambio de datos intermedios en el flujo de trabajo de Spark SQL, este documento propone un algoritmo de fusión de correlación basado en costos, que puede reducir eficazmente el costo de lectura y escritura de datos redundantes. Este documento desarrolla el m

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento