Proponemos y evaluamos una nueva estrategia para ajustar el rendimiento de una clase de cálculos de stencil en Unidades de Procesamiento Gráfico. La estrategia utiliza un modelo de aprendizaje automático para predecir la forma óptima de cargar datos desde la memoria seguido por una heurística que divide otras optimizaciones en grupos y explora exhaustivamente un grupo a la vez. Utilizamos un conjunto de 104 pruebas sintéticas de stencil OpenCL que son representativas de muchos cálculos de stencil reales. Primero demostramos la necesidad de la sintonización automática al mostrar que el espacio de optimización es lo suficientemente complejo como para que enfoques simples para determinar una configuración de alto rendimiento fallen. Luego demostramos la efectividad de nuestro enfoque en GPUs de NVIDIA y AMD. En comparación con un muestreo aleatorio del espacio, encontramos configuraciones que son un 12%/32% más rápidas en la plataforma de NVIDIA/AMD en un 71% y 4% menos de tiempo, respectivamente. En comparación con una búsqueda de expertos, logramos un
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Grandes datos en el deporte: gestión, análisis, aplicaciones y desafíos
Artículo:
Método de verificación de integridad de datos de video basado en cifrado homomórfico completo en un sistema en la nube
Artículo:
Reconocimiento de gestos interindividuales basado en redes de memoria a largo plazo y corto plazo.
Artículo:
Intercambio seguro de datos basado en atributos rastreables con políticas ocultas en redes sanitarias móviles
Artículo:
Mecanismo de coincidencia de servicios de calidad de servicio de red dinámica de Internet de las cosas móviles y análisis de simulación.