Técnicas de imputación para datos de precipitación máxima mensual en la zona central de Boyacá
Imputation techniques applied in a maximum monthly precipitation data in the central zone of Boyacá
La precipitación se encuentra relacionada directamente con el suministro de agua de las cuencas fluviales, convirtiéndose su predicción en un objetivo de estudio en diferentes investigaciones. Sin embargo, los registros históricos a menudo muestran datos faltantes debido a fallas instrumentales, técnicos o humanos. Esta limitación impacta directamente los resultados de los análisis estadísticos que puedan ser realizados posteriormente. Esta investigación aborda este problema para un conjunto de datos con características similares, recopilados en la parte central del departamento de Boyacá - Colombia para el período 1974-2013. Se evaluó el desempeño de los mecanismos de imputación de pérdida MCAR, MAR o MNAR, cada uno de estos se implementó usando una imputación múltiple con un enfoque aleatorio, una asignación por el método de K-Nearest Neighbors con enfoque espacial y una imputación por el método de suavizado de Kalman con enfoque temporal. Se midió la convergencia de los estadísticos descriptivos del valor imputado y el valor original y se realizó la comparación de los ajustes gráficos y sus distribuciones de probabilidad, sugiriendo un mejor ajuste usando la imputación múltiple Amelia en conjunto con un ajuste a una distribución gamma para los datos faltantes en el conjunto de datos de referencia.
1. INTRODUCCIÓN
La precipitación es el fenómeno meteorológico por el cual el vapor de agua se condensa y desciende de la atmosfera a la superficie terrestre [1]. Este fenómeno es importante para desarrollar estudios hidrológicos necesarios en el diseño de obras civiles, planeamiento del territorio y demás proyectos implicados en el crecimiento económico y social [2]. La medición de las precipitaciones en Colombia se hace mediante pluviómetros, la información meteorológica disponible se ve limitada debido a que las estaciones, su instalación y su mantenimiento, se constituyen como un trabajo arduo y costoso; a esto se suma la complejidad geográfica y climática que afecta la densidad de la red de monitoreo [3]. Estos registros no siempre cuentan con una cobertura y longitud convenientes, pues hay periodos en los cuales no se registran datos debido a fallas humanas o en la instrumentación. En caso de que los estudios requieran esta información, es necesario completar los datos faltantes por medio de diferentes métodos que consideren las particularidades de estas series temporales y logren modelar el fenómeno con cierto grado de validez [4].
En la metodología de imputación de registros para series temporales, debe considerarse el mecanismo de pérdida de los datos, para así elegir el método que se adapte mejor al conjunto de datos; estas clasificaciones son cruciales, ya que las propiedades de estos métodos dependen en gran medida de la naturaleza y las dependencias en estos mecanismos. Dichos mecanismos se clasifican considerando la relación de una distribución condicional y el conjunto de datos faltantes; de acuerdo con lo anterior se definen tres mecanismos de pérdida: Missing completely at random (MCAR), Missing at random (MAR), y Missing not at random (MNAR) [5].
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:1910 kb