Voorspellen - deel 2: Traditionele versus deep learning technieken

Voorspellen - deel 2: Traditionele versus deep learning technieken

Introductie

Voorspellingsmodellen hebben zich het afgelopen decennium razendsnel ontwikkeld. Klassieke tools zoals ARIMA, exponentiële afvlakking en state-space modellen blijven essentieel, maar nieuwe benaderingen vanuit machine learning en deep learning beginnen hiermee te concurreren en presteren vaak zelfs beter.

In deze blog wordt de voorspellingskwaliteit van de deep learning modellen N-BEATS en N-HiTS vergeleken met die van een traditioneel econometrisch voorspellingsmodel. De N-BEATS en N-HiTS modellen zijn beschreven in het eerste deel van de drie blogs (zie …). Het geselecteerde traditionele voorspellingsmodel is het Dynamic Harmonic Regression model, wat een geschikte kandidaat lijkt gezien de kenmerken van de data die voor deze analyse zijn gebruikt (zoals hieronder beschreven).

Dynamic Harmonic Regression model

Veel tijdreeksen in de praktijk vertonen seizoensgebondenheid, en traditionele benaderingen zoals SARIMA (Seasonal ARIMA) of state-space modellen gaan hiermee om door een vast seizoenspatroon op te leggen — een patroon dat zich elke periode identiek herhaalt. Dit werkt doorgaans goed, maar kan tekortschieten wanneer de seizoensstructuur geleidelijk in de loop van de tijd verandert: winkelpatronen verschuiven, dagelijkse gebruikscycli veranderen langzaam en jaarlijkse cycli vervormen subtiel jaar na jaar.

Dynamic Harmonic Regression (DHR) is ontworpen om precies hiermee om te gaan: sterke seizoensgebondenheid die niet perfect stabiel is. Het doet dit door twee bekende concepten te combineren:

  • Harmonische regressie met behulp van Fourier-reeksen, om seizoensgebondenheid weer te geven als combinaties van sinus- en cosinusgolven.

  • State-space modellering, om de coëfficiënten van die golven in de loop van de tijd te laten evolueren.

In de praktijk wordt DHR vaak gecombineerd met een ARIMA of vergelijkbaar foutmodel om kortetermijn-autocorrelatie vast te leggen, terwijl het state-space systeem het verschuivende seizoenspatroon beheert. Het resultaat is een voorspellingsraamwerk dat de interpreteerbaarheid en statistische nauwkeurigheid van klassieke methoden behoudt, en tegelijkertijd de flexibiliteit biedt die nodig is om moderne, langzaam veranderende seizoensdynamiek te modelleren.

Data

Om de voorspellingskwaliteit van de modellen te beoordelen, wordt een dataset gebruikt van de Open Power System Data site (https://data.open-power-system-data.org/time_series). De dataset bestaat uit ongeveer 50.000 uurlijkse observaties van elektriciteitsverbruik in Nederland tussen januari 2015 en oktober 2020. De onderstaande figuur toont de historische tijdreeks.

 

Voorspellen - deel 2: Traditionele versus deep learning technieken

De jaarlijkse seizoensgebondenheid is duidelijk zichtbaar in de figuur. Daarnaast wordt er dagelijkse seizoensgebondenheid en wekelijkse seizoensgebondenheid (weekenden) verwacht. Dit is verder geanalyseerd met behulp van MSTL (Multiple Seasonal-Trend decomposition using LOESS). Dit is een methode om een tijdreeks te ontleden in een trend, een restant en meerdere seizoenscomponenten met behulp van iteratieve LOESS-afvlakking. De resultaten worden weergegeven in de onderstaande figuur.

 

Voorspellen - deel 2: Traditionele versus deep learning technieken

Kwantitatieve beoordeling

Gezien de hierboven beschreven kenmerken, lijkt het DHR-model geschikt voor het modelleren van de energieverbruiksdata. Voor deze analyse gebruiken we respectievelijk 4, 3 en 6 harmonischen (sinus-cosinus paren) voor dagelijkse, wekelijkse en jaarlijkse frequenties. De bijbehorende Fourier-coëfficiënten voor de horizon van 168 uur worden hieronder weergegeven, waarbij de factoren f_1 – f_8, f_9 – f_14 en f_15 – f_26 betrekking hebben op respectievelijk de dagelijkse, wekelijkse en jaarlijkse Fourier-termen. De grootte en het patroon van de coëfficiënten zijn vergelijkbaar voor de andere horizonten.

 

Voorspellen - deel 2: Traditionele versus deep learning technieken

De figuur laat zien dat voor elke frequentie de eerste 1 – 2 harmonischen een grotere amplitude hebben, waarna de latere harmonischen naar nul afzwakken. Dit impliceert dat het aantal in het model opgenomen Fourier-harmonischen voldoende is.

Merk op dat voor N-BEATS en N-HiTS kalendercovariaten (maand en dag-van-het-jaar) zijn opgenomen. Hoewel N-BEATS en N-HiTS in staat zijn om jaarlijkse seizoensgebondenheid direct uit de ruwe tijdreeksen te ontdekken, is het aanleveren van expliciete kalenderkenmerken computationeel efficiënter. Deze covariaten stellen de modellen in staat om lange seizoenspatronen vast te leggen zonder het invoervenster uit te breiden tot een heel jaar, waardoor zowel de computationele last als het geheugengebruik tijdens de training worden verlaagd.

De voorspellende nauwkeurigheid van de drie modellen is geëvalueerd met behulp van rolling-origin cross-validation. Voor elke voorspellingshorizon werd de tijdreeks opgesplitst in vijf opeenvolgende evaluatievensters, elk met een lengte gelijk aan de voorspellingshorizon. Voor elk venster werd het model opnieuw getraind op alle data die beschikbaar was tot aan de oorsprong van het venster, en werden er voorspellingen gegenereerd voor de bijbehorende horizon. De Root Mean Squared Error (RMSE) werd berekend voor elk venster, en de gemiddelde RMSE over de vijf vensters werd gebruikt als de cross-validatiescore. De resultaten worden in de onderstaande tabel weergegeven voor horizonten van 24 uur, 168 uur (een week) en 720 uur (een maand).

 

Voorspellen - deel 2: Traditionele versus deep learning technieken

De tabel laat zien dat de prestaties van DHR aanzienlijk minder zijn dan die van N-BEATS en N-HiTS. Hoewel DHR seizoensgebondenheid expliciet aanpakt met behulp van de Fourier-termen, is de functionele vorm ervan nog steeds relatief eenvoudig in vergelijking met N-BEATS en N-HiTS, die niet-lineaire interacties tussen kalender, trend en niveau kunnen leren, en de vorm van dagelijkse en wekelijkse patronen in de loop van de tijd kunnen aanpassen.

Conclusie

In deze blog wordt de voorspellingskwaliteit van twee deep learning modellen, N-BEATS en N-HiTS, vergeleken met een traditioneel econometrisch voorspellingsmodel, Dynamic Harmonic Regression. De gebruikte dataset is een tijdreeks van uurlijks energieverbruik in Nederland. De conclusie is dat voor tijdreeksen met dergelijke complexe dynamiek en meervoudige seizoenspatronen, N-BEATS en N-HiTS aanzienlijk beter presteren dan het traditionele model. In het derde deel van de drie blogs zullen deze modellen worden vergeleken met een forecasting foundation model, Chronos-2.