1. Analysis of multivariate time series data through explanatory machine learning methods
- Author
-
Kučinić, Ivana and Ujević Andrijić, Željka
- Subjects
onečišćenje zraka ,multivarijatne vremenske serije ,nitrogen dioxide ,multivariate time series ,Random Forest model ,TEHNIČKE ZNANOSTI. Kemijsko inženjerstvo ,air pollution ,dušikov dioksid ,Prophet model ,Onečišćenje zraka ,Dušikov dioksid ,Strojno učenje ,Multivarijatne vremenske serije ,Prophet algoritam ,Algoritam slučajnih šuma ,strojno učenje ,machine learning ,algoritam slučajnih šuma ,TECHNICAL SCIENCES. Chemical Engineering - Abstract
Visoke koncentracije dušikova dioksida (NO2) u zraku, posebno u jako urbaniziranim područjima, negativno utječu na mnoge aspekte ljudskog zdravlja. U ovom radu primjenjuju se metode strojnog učenja za predviđanje koncentracija NO2 u zraku. Meteorološki podaci i koncentracije NO2 odabrane su i analizirane s četiri mjesta u gradu Grazu. Koncentracije NO2 postavljene su kao ciljne varijable Prophet i Random Forest modela za predviđanje vrijednosti u periodu od 15. ožujka 2019. do 15. ožujka 2020. godine. Razvijeni modeli strojnog učenja pokazali su dobru razinu generalizacije za predviđanje koncentracija NO2 u zraku. Kombinacija Prophet značajki i Random Forest modela pokazala se najboljom za razvoj modela predviđanja koncentracija NO2. Najbolji rezultati ostvareni su na mjernoj postaji Zapad gdje je vrijednost koeficijenta determinacije modela R^2 = 0,65, dok je najlošiji rezultat ostvaren na postaji Don Bosco gdje je R^2 = 0,50. Značajke koje najviše utječu na razvoj modela su značajke sezonalnosti, a najveći utjecaj ima godišnja sezonalnost. High concentrations of nitrogen dioxide (NO2) in the air, especially in heavily urbanised areas, have a negative impact on many aspects of human health. In this work, machine learning methods were applied for the prediction of NO2 concentrations in the air. Meteorological data and concentrations of NO2 were selected and analyzed from four places in the city of Graz. Concentrations of NO2 are set as target variables of Prophet and Random Forest models for predicting values from March 15th 2019 to March 15th 2020. The machine learning models showed a good level of generalization for predicting the NO2 concentrations. The combination of Prophet features and Random Forest model proved to be the best for developing the NO2 concentration prediction model. The best results were achieved at the West measuring station where the value determination coefficient R^2 is 0,65, and the worst result was achieved at Don Bosco station where R^2 is 0,50. The features that most affect the development of the model are the features of seasonality and the greatest impact has the yearly seasonality.
- Published
- 2022