Relative humidity time series prediction using bootstrap and nonparametric functional regression models
Previso de sries temporais de humidade relativa usando modelos de regresso funcional bootstrap e no paramtricos
Correspondencia: jorged.zuniga@unach.edu.ec
Ciencias Tcnicas y Aplicadas
Artculo de Investigacin
* Recibido: 12 de agosto de 2024 *Aceptado: 24 de septiembre de 2024 * Publicado: 04 de octubre de 2024
I. Universidad Nacional de Chimborazo, Riobamba, Ecuador.
II. Escuela Superior Politcnica de Chimborazo, Riobamba, Ecuador.
III. Escuela Superior Politcnica de Chimborazo, Riobamba, Ecuador.
IV. Universidad Nacional de Chimborazo, Riobamba, Ecuador.
Resumen
La investigacin tuvo como objetivo, desarrollar intervalos de prediccin para series temporales de humedad relativa utilizando la metodologa bootstrap combinada con modelos de regresin funcional no paramtrica. Para ello, se registraron los valores de humedad relativa en porcentaje, cada segundo, durante el ao 2023 en la estacin meteorolgica de la Facultad de Ingeniera de la Universidad Nacional de Chimborazo. La investigacin incluy la limpieza de valores atpicos, la interpolacin de datos faltantes y el clculo de la media horaria mensual. Los modelos de regresin funcional se ajustaron mediante B-splines, los cuales capturaron de manera efectiva las caractersticas esenciales de cada serie mensual. Se generaron 5000 rplicas de las series temporales usando la metodologa bootstrap para predecir la humedad relativa de diciembre de 2023. La prediccin fue contrastada con los datos reales obtenidos, mostrando una alta consistencia. Para mejorar la precisin, las predicciones fueron suavizadas con bases de Fourier y se calcularon intervalos de confianza al 95%. Los resultados demuestran que la metodologa empleada es slida, proporcionando intervalos de prediccin robustos. Este enfoque no solo facilita una comprensin ms profunda de los patrones de humedad relativa a lo largo del ao, sino que tambin ofrece una herramienta valiosa para futuras investigaciones. La metodologa implementada puede ser aplicada en la prediccin y anlisis de series temporales en variables meteorolgicas.
Palabras clave: humedad relativa; series temporales; bootstrap; regresin funcional; modelo no paramtrico; Fourier.
Abstract
The objective of the research was to develop prediction intervals for relative humidity time series using the bootstrap methodology combined with non-parametric functional regression models. To do this, relative humidity values were recorded in percentage, every second, during the year 2023 at the meteorological station of the Faculty of Engineering of the National University of Chimborazo. The research included cleaning outliers, interpolation of missing data and calculation of the monthly hourly average. The functional regression models were adjusted using B-splines, which effectively captured the essential characteristics of each monthly series. 5000 replicas of the time series were generated using the bootstrap methodology to predict the relative humidity for December 2023. The prediction was contrasted with the real data obtained, showing high consistency. To improve accuracy, the predictions were smoothed with Fourier bases and 95% confidence intervals were calculated. The results demonstrate that the methodology used is solid, providing robust prediction intervals. This approach not only facilitates a deeper understanding of relative humidity patterns throughout the year, but also offers a valuable tool for future research. The implemented methodology can be applied in the prediction and analysis of time series of meteorological variables.
Keywords: relative humidity; time series; bootstrap; functional regression; nonparametric model; Fourier.
Resumo
O objetivo da investigao foi desenvolver intervalos de previso para sries temporais de humidade relativa utilizando a metodologia bootstrap combinada com modelos de regresso funcional no paramtricos. Para tal, foram registados valores de humidade relativa em percentagem, a cada segundo, durante o ano de 2023 na estao meteorolgica da Faculdade de Engenharia da Universidade Nacional de Chimborazo. A investigao incluiu a limpeza de valores discrepantes, a interpolao de dados em falta e o clculo da mdia horria mensal. Os modelos de regresso funcional foram ajustados atravs de B-splines, que capturaram eficazmente as caractersticas essenciais de cada srie mensal. Foram geradas 5000 rplicas da srie temporal utilizando a metodologia bootstrap para a previso da humidade relativa de dezembro de 2023. A previso foi contrastada com os dados reais obtidos, apresentando uma elevada consistncia. Para melhorar a preciso, as previses foram suavizadas com bases de Fourier e foram calculados intervalos de confiana de 95%. Os resultados demonstram que a metodologia utilizada slida, fornecendo intervalos de previso robustos. Esta abordagem no s facilita uma compreenso mais profunda dos padres de humidade relativa ao longo do ano, como tambm oferece uma ferramenta valiosa para futuras pesquisas. A metodologia implementada pode ser aplicada na previso e anlise de sries temporais em variveis meteorolgicas.
Palavras-chave: humidade relativa; sries temporais; inicializao; regresso funcional; modelo no paramtrico; Fourier.
Introduccin
El anlisis del comportamiento de las variables meteorolgicas es crucial debido a la variabilidad de los datos, la cual est influenciada por diversos factores externos. Aunque los modelos de regresin de series temporales han sido utilizados tradicionalmente con xito para predicciones a corto y mediano plazo, la extensin del perodo de anlisis a menudo resulta en predicciones menos precisas (Chariguamn Maurisaca & Meneses Freire, 2024). En este contexto, el presente estudio se enfoc en aplicar un modelo funcional no paramtrico para series temporales de humedad relativa, a fin de mejorar la precisin en las predicciones.
Se utiliz la metodologa bootstrap junto con modelos B-Spline, a fin de generar intervalos de prediccin ms fiables y representativos (Ziga & Meneses, 2024). Este enfoque no paramtrico adaptado a datos funcionales ofrece una herramienta slida para el anlisis y la prediccin de series temporales de humedad relativa. A continuacin, se consideran algunos conceptos relevantes para la presente investigacin.
Modelos de regresin no paramtrico B-Spline
Los modelos de regresin no paramtricos permiten estimar efectos no lineales de manera flexible sin la necesidad de imponer una forma funcional predeterminada. Esto es especialmente til cuando se analiza una sola covariable continua, como x(Toalombo et al., 2022), el modelo estndar para la regresin no paramtrica se define de la siguiente manera:
En cuanto a la variable de error , se considera que la funcin f tiene ciertas propiedades de suavidad, como la continuidad o la diferenciabilidad, sin especificar una forma paramtrica concreta (Horvth & Kokoszka, 2012). Un spline es una funcin construida en segmentos utilizando funciones polinomiales, y su nombre proviene del concepto de listn elstico (Racine, 2023). Los splines son curvas polinmicas por secciones que son continuamente diferenciables hasta un cierto orden (Paluszny et al., 2005). Ejemplos comunes incluyen , un spline lineal por tramos, y , un spline cbico.
Funcin base B-spline
Una funcin B-spline es una funcin base interpolativa con alta diferenciabilidad, que extiende la curva de Bzier. Los B-splines se definen por su orden m y el nmero de nodos interiores N (incluyendo dos nodos extremos, sumando un total de ( N + 2 ) nodos) (Pea, 2015). El grado del polinomio B-spline es m-1 (Racine, 2022). Una B-spline de grado n (con un orden de spline m = n+1) es una curva paramtrica compuesta por una combinacin lineal de B-splines base de grado n (Boor, 2001). Se define de la siguiente manera:
f(x) tiene la siguiente estructura:
Donde:
K: cantidad de bases
parmetros desconocidos
funciones polinomiales
puntos de control o puntos de Boor
La secuencia t es la secuencia de nodos, donde cada trmino individual de la secuencia se conoce como un nodo (Racine, 2022). La regresin que utiliza B-splines de orden p se estructura como:
Donde:
coeficientes a encontrar.
El spline f(x) se puede expresar como una combinacin lineal en la siguiente forma:
Las funciones siguientes conforman una base de funciones polinmicas para el spline:
Metodologa Bootstrap
La metodologa Bootstrap es una tcnica empleada para aproximar la distribucin de un muestreo estadstico. Este mtodo se fundamenta en el remuestreo de datos, lo que significa generar nuevas muestras aleatorias a partir del original (Meneses et al., 2018). Utilizando los principios generales de este mtodo y manteniendo la hiptesis nula, se puede calcular el intervalo de confianza para la diferencia de medias de dos muestras pareadas.
Modelo no paramtrico de series temporales funcionales
Uno de los mtodos ms comunes en el anlisis de series temporales es el modelo de regresin no paramtrico. Este modelo puede aplicarse a series de tiempo funcionales de la siguiente manera:
Xi(t) es el i-simo dato funcional, con t variando dentro de un intervalo de tiempo. La ecuacin (8) modela una serie temporal para cada instante t, ajustada mediante un modelo no paramtrico y un trmino de error, (Melo Martnez et al., 2020).
En este estudio, se emple el estimador de Nadaraya-Watson para m(X), siguiendo las ideas de (Aneiros-Prez et al., 2011), como se ilustra en la ecuacin (9):
Donde:
h: apertura de suavizado
N: tamao de muestra
K: funcin de ncleo
d: distancia entre curvas
El estudio se enfoc en el espacio L2 de funciones cuadrticamente integrables, siguiendo las recomendaciones de (Beyaztas & Shang, 2020). Para ajustar el modelo, se minimiz el error cuadrtico medio descrito en la ecuacin (11), utilizando una ventana de suavizado estimada obtenida mediante validacin cruzada (CV), como se indica en la ecuacin (12).
donde,
Siendo el estimador de Nadaraya-Watson calculado excluyendo la observacin i-sima de los datos (Meneses Freire et al., 2022).
Metodologa
La investigacin es cuantitativa con un diseo experimental, utilizando la metodologa bootstrap para calcular intervalos de prediccin mediante modelos no paramtricos de regresin funcional aplicados a series temporales de humedad relativa.
Los datos utilizados corresponden al registro de la humedad relativa por segundo, obtenidos en la estacin meteorolgica de la Facultad de Ingeniera de la UNACH durante el ao 2023. Se realiz una limpieza de valores atpicos en Excel y una interpolacin de datos faltantes. Luego, se calcul la media horaria de la humedad relativa para cada mes del ao 2023.
El procedimiento en el software estadstico R fue el siguiente:
- Exploracin grfica: Se llevaron a cabo grficos exploratorios usando la librera ggplot2 de los datos de humedad relativa para identificar patrones, tendencias y posibles anomalas.
- Ajuste de modelos: Se utilizaron B-splines para ajustar los modelos de regresin, que permiten la adaptacin flexible de curvas en los datos observados, asegurando que los modelos capturen adecuadamente las caractersticas esenciales de cada serie temporal mensual de humedad relativa.
- Generacin de rplicas: Se aplic la metodologa bootstrap, generando 5000 rplicas de las series temporales mensuales de humedad relativa. Cada rplica fue modelada usando los B-splines ajustados previamente, estableciendo una base slida para la prediccin.
- Prediccin: Se utiliz el modelo no paramtrico funcional para predecir la serie temporal del mes de diciembre de 2023. Se generaron 5000 predicciones bootstrap, y se incluy una prediccin basada en los datos reales para comparar y evaluar la precisin y variabilidad de las predicciones obtenidas.
- Suavizacin y precisin: Se suavizaron las 5000 predicciones mediante bases de Fourier para mejorar la precisin.
- Clculo de intervalos: Finalmente, se calcularon intervalos de confianza del 95% para las predicciones, proporcionando un rango en el que se espera que se encuentren los valores de humedad relativa para diciembre de 2023.
Resultados y discusin
Grfico exploratorio de los datos:
En la figura 2, se observa las doce series temporales de humedad relativa en porcentaje, representa la media horaria en cada mes del ao 2023. Cada serie temporal presenta dos picos mximos en el trascurso del da. Este patrn es consistente a lo largo de todos los meses.
Figura 1: Curvas medias mensuales de humedad relativa en el ao 2023
Realizado por: Ziga Jorge, 2024
Humedad relativa media en los meses de enero a noviembre
En la figura 3, se observa las series temporales de enero a noviembre de 2023. Cada serie temporal muestra un aumento gradual de porcentaje de humedad relativa desde las 00:00 horas alcanzando un pico mximo alrededor de las 8:00 horas y otro pico mximo alrededor de las 20:00 horas, luego disminuye gradualmente para el resto de la noche.
Figura 2. Perfil diario de humedad relativa media de enero a noviembre en el ao 2023
Realizado por: Ziga Jorge, 2024
Predicciones de humedad relativa con el modelo no paramtrico funcional para el mes de diciembre del ao 2023
En la figura 4, se observa que la prediccin de la serie temporal del mes de diciembre mediante el modelo no paramtrico funcional, es muy semejante a la serie temporal de los datos reales para este mes.
Figura 3. Medias de humedad relativa mensual con predicciones para diciembre del ao 2023
Realizado por: Ziga Jorge, 2024
Predicciones del modelo no paramtrico de regresin funcional de humedad relativa para el mes de diciembre del ao 2023
En la figura 5, se observa la comparacin grfica entre la prediccin del modelo no paramtrico de la serie temporal del mes de diciembre con los datos reales de este mes.
Figura 4. Serie temporal de humedad relativa y prediccin del modelo no paramtrico de regresin funcional para diciembre de 2023
Realizado por: Ziga Jorge, 2024
Clculo de 5000 simulaciones mediante modelos B-Spline de la serie temporal de humedad relativa de enero a noviembre del ao 2023
En la figura 6, se observa la variacin de las simulaciones del porcentaje de humedad relativa para cada mes del ao 2023.
Figura 5. 5000 simulaciones mediante modelos B-Spline de la serie temporal de humedad relativa de enero a noviembre del ao 2023
Realizado por: Ziga Jorge, 2024
Metodologa Bootstrap para obtener 5000 rplicas de predicciones de series de tiempo de humedad relativa para diciembre del ao 2023
En la figura 7, se observa las 5000 rplicas formando una banda de predicciones de series de tiempo de humedad relativa para diciembre 2023, tienen una ligera variacin de las cuales se obtendrn los intervalos puntuales de prediccin para cada hora.
Figura 6. Predicciones de series de tiempo utilizando el modelo no paramtrico funcional
Realizado por: Ziga Jorge, 2024
Aplicacin del modelo no paramtrico funcional para obtener 5000 rplicas Bootstrap de series de tiempo de humedad relatia para diciembre de 2023
En la figura 8, se observa que la prediccin del modelo no paramtrico de humedad relativa del mes de diciembre, se encuentra dentro de los lmites de la banda de las 5000 predicciones bootstrap.
Figura 7. 5000 predicciones bootstrap de humedad relativa junto a la prediccin de diciembre 2023
Realizado por: Ziga Jorge, 2024
Suavizado de las 5000 predicciones bootstrap con bases de Fourier
En la figura 9, se muestra un suavizado usando bases de Fourier de las 5000 rplicas Bootstrap, se aprecia la eliminacin de picos e irregularidades presentes en la figura anterior, la prediccin del modelo no paramtrico de humedad relativa del mes de diciembre, se mantiene dentro de los lmites de la banda de prediccin suavizada.
Figura 8. Suavizado de las 5000 predicciones bootstrap de humedad relativa con bases de Fourier
Realizado por: Ziga Jorge, 2024
Intervalos de prediccin puntuales bootstrap al 95% de la serie temporal de humedad relativa
En la figura 10, se observan los intervalos de prediccin puntuales de 00:00 horas a 23:00 horas del da. La curva roja corresponde a la serie temporal de prediccin de humedad relativa mediante el mtodo no paramtrico y se encuentra dentro de los intervalos puntuales bootstrap al 95% de confianza.
Figura 9. Intervalos de prediccin puntuales bootstrap al 95% de la serie temporal de humedad relativa.
Realizado por: Ziga Jorge, 2024
Conclusiones
En el presente estudio se observ que los datos de humedad relativa en series de tiempo son muy semejantes en cada mes del ao 2023, presentando un patrn consistente con dos picos mximos, uno alrededor de las 8:00 horas y otro alrededor de las 20:00 horas. Sin embargo, se identifican ligeras variaciones en estos picos mximos en algunos meses. Estos hallazgos permiten comprender mejor los patrones de humedad relativa a lo largo del ao y pueden ser tiles para futuras investigaciones en meteorologa.
Mediante los modelos de regresin B-Spline se obtuvieron rplicas bootstrap muy similares a las series temporales de humedad relativa de cada mes. Estas rplicas se aplicaron mediante un mtodo no paramtrico para generar una banda de prediccin bootstrap, la cual contiene a la prediccin de la serie temporal de humedad relativa del mes de diciembre.
Se obtuvieron intervalos de confianza puntuales bootstrap al 95% para la serie temporal de humedad relativa del mes de diciembre de 2023, demostrando que la prediccin se encuentra dentro de estos intervalos. Esto confirma la fiabilidad del modelo en la estimacin de los datos. Este intervalo de confianza proporciona una medida robusta de la variabilidad y la incertidumbre en las predicciones, validando as la efectividad del enfoque bootstrap en la modelizacin de datos de humedad relativa y en futuras predicciones de otras variables meteorolgicas.
Referencias
1. Aneiros-Prez, G., Cao, R., & Vilar-Fernndez, J. M. (2011). Functional methods for time series prediction: A nonparametric approach. Journal of Forecasting, 30(4), 377-392. https://doi.org/10.1002/for.1169
2. Beyaztas, U., & Shang, H. L. (2020). On function-on-function regression: partial least squares approach. Environmental and Ecological Statistics, 27(1), 95-114. https://doi.org/10.1007/S10651-019-00436-1/METRICS
3. Boor, C. de. (2001). A Practical Guide to Splines - Revised Edition. En Springer-Verlag, New York (Vol. 115). Springer. https://link.springer.com/book/9780387953663
4. Chariguamn Maurisaca, N. E., & Meneses Freire, M. A. (2024). Modelos de regresin funcional con respuesta funcional aplicados a las variables meteorolgicas, temperatura, humedad, presin y radiacin. Tesla Revista Cientfica, 4(1), e317. https://doi.org/10.55204/trc.v4i1.e317
5. Horvth, L., & Kokoszka, P. (2012). Inference for Functional Data with Applications. 200. https://doi.org/10.1007/978-1-4614-3655-3
6. Melo Martnez, C. E., Diego, &, Malagn Mrquez, A., David, D., & Forero, R. (2020). Interpoladores determinsticos espacio-temporales, series detiempo y anlisis de datos funcionales para el estudio y prediccinde la precipitacin en Cundinamarca y Bogot D.C. 2017-2020. http://revistas.udistrital.edu.co/ojs/index.php/azimut
7. Meneses, A., Ziga, L., Santos, C., Haro, S., Chariguamn, N., & Vera, L. (2018). Mtodo bootstrap para hiptesis concernientes a la diferencia de medias para muestras pareadas: aplicaciones. Perfiles, 2(20), 100-106. https://doi.org/10.47187/PERF.V2I20.39
8. Meneses Freire, A., Muoz Cargua, J., Ziga Lema, L., Lara Sinaluisa, J., & Acurio Martnez, W. (2022). Modelo no paramtrico funcional predictivo en series de tiempo funcionales. aplicacin en variables meteorolgicas. Perfiles, 1(28), 83-89. https://doi.org/10.47187/PERF.V1I28.186
9. Paluszny, M., Prautzsch, H., & Boehm, W. (2005). Mtodos de Bzier y B-splines. Universittsverlag Karlsruhe, 303. https://doi.org/10.5445/KSP/1000002481
10. Pea, D. (2015). Anlisis de series temporales (Alianza Editorial). Alianza Editorial. https://www.alianzaeditorial.es/libro/manuales/analisis-de-series-temporales-daniel-pena-9788420669458/
11. Racine, J. S. (2022). A primer on regression splines. https://cran.r-project.org/web/packages/crs/vignettes/spline_primer.pdf
12. Racine, J. S. (2023). The crs Package. https://doi.org/https://doi.org/10.32614/CRAN.package.crs
13. Toalombo, B., Meneses, A., Ziga, L., & Espn, R. (2022). Modelos de regresin paramtricos polinomiales y no paramtricos b-splines. una aplicacin en ingeniera. Perfiles, 1(28), 72-82. https://doi.org/10.47187/PERF.V1I28.185
14. Ziga, J., & Meneses, A. (2024). Bootstrap para calcular intervalos de prediccin mediante modelos no paramtricos de regresin funcional de radiacin solar. CASADELPO, 9, 3726-3740. https://doi.org/10.23857/pc.v9i8.7909
2024 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/