Thursday, 2 November 2017

Saisonalität Zentriert Gleitenden Durchschnitt


Bei der Berechnung eines laufenden Gleitendurchschnitts ist es sinnvoll, den Mittelwert in der mittleren Zeitperiode einzutragen. Im vorigen Beispiel haben wir den Durchschnitt der ersten 3 Zeiträume berechnet und neben der Periode 3 platziert. Wir hätten den Durchschnitt in der Mitte platzieren können Zeitintervall von drei Perioden, das heißt, neben Periode 2. Dies funktioniert gut mit ungeraden Zeitperioden, aber nicht so gut für sogar Zeitperioden. Also wo würden wir den ersten gleitenden Durchschnitt platzieren, wenn M 4 Technisch, würde der Moving Average bei t 2,5, 3,5 fallen. Um dieses Problem zu vermeiden, glätten wir die MAs unter Verwendung von M 2. So glätten wir die geglätteten Werte Wenn wir eine gerade Anzahl von Ausdrücken mitteln, müssen wir die geglätteten Werte glätten Die folgende Tabelle zeigt die Ergebnisse unter Verwendung von M 4.Spreadsheet-Implementierung der saisonalen Anpassung und Exponentielle Glättung Es ist einfach, saisonale Anpassung durchzuführen und exponentielle Glättungsmodelle mit Excel anzupassen. Die unten aufgeführten Bildschirmbilder und Diagramme werden einer Tabellenkalkulation entnommen, die eine multiplikative saisonale Anpassung und eine lineare Exponentialglättung auf den folgenden vierteljährlichen Verkaufsdaten von Outboard Marine darstellt: Um eine Kopie der Tabellenkalkulation selbst zu erhalten, klicken Sie hier. Die Version der linearen exponentiellen Glättung, die hier für Demonstrationszwecke verwendet wird, ist die Brown8217s-Version, nur weil sie mit einer einzigen Spalte von Formeln implementiert werden kann und es nur eine Glättungskonstante gibt, die optimiert werden soll. In der Regel ist es besser, Holt8217s Version, die separate Glättungskonstanten für Ebene und Trend hat. Der Prognoseprozess verläuft wie folgt: (i) Die Daten werden saisonbereinigt (ii) sodann für die saisonbereinigten Daten über lineare exponentielle Glättung Prognosen erstellt und (iii) schließlich werden die saisonbereinigten Prognosen zur Erzielung von Prognosen für die ursprüngliche Serie herangezogen . Der saisonale Anpassungsprozess wird in den Spalten D bis G durchgeführt. Der erste Schritt in der Saisonbereinigung besteht darin, einen zentrierten gleitenden Durchschnitt (hier in Spalte D) zu berechnen. Dies kann erreicht werden, indem der Durchschnitt von zwei einjährigen Durchschnittswerten, die um eine Periode relativ zueinander versetzt sind, genommen wird. (Eine Kombination von zwei Offset-Durchschnittswerten anstatt eines einzigen Mittels wird für die Zentrierung benötigt, wenn die Anzahl der Jahreszeiten gleich ist.) Der nächste Schritt besteht darin, das Verhältnis zum gleitenden Durchschnitt zu berechnen. Wobei die ursprünglichen Daten durch den gleitenden Durchschnitt in jeder Periode dividiert werden, was hier in Spalte E durchgeführt wird. (Dies wird auch Quottrend-Cyclequot-Komponente des Musters genannt, sofern Trend - und Konjunktur-Effekte als all das angesehen werden können Bleibt nach einer Durchschnittsberechnung über ein ganzes Jahr im Wert von Daten bestehen. Natürlich können die monatlichen Veränderungen, die nicht saisonal bedingt sind, durch viele andere Faktoren bestimmt werden, aber der 12-Monatsdurchschnitt glättet sie weitgehend Wird der geschätzte saisonale Index für jede Jahreszeit berechnet, indem zuerst alle Verhältnisse für die jeweilige Jahreszeit gemittelt werden, was in den Zellen G3-G6 unter Verwendung einer AVERAGEIF-Formel erfolgt. Die Durchschnittsverhältnisse werden dann neu skaliert, so daß sie auf das genau 100-fache der Anzahl der Perioden in einer Jahreszeit, oder 400 in diesem Fall, das in den Zellen H3-H6 erfolgt, summieren. Unten in der Spalte F werden VLOOKUP-Formeln verwendet, um den entsprechenden saisonalen Indexwert in jede Zeile der Datentabelle einzufügen, entsprechend dem Viertel des Jahres, das es repräsentiert. Der mittlere gleitende Durchschnitt und die saisonbereinigten Daten enden wie folgt: Beachten Sie, dass der gleitende Durchschnitt typischerweise wie eine glattere Version der saisonbereinigten Serie aussieht und an beiden Enden kürzer ist. Ein weiteres Arbeitsblatt in derselben Excel-Datei zeigt die Anwendung des linearen exponentiellen Glättungsmodells auf die saisonbereinigten Daten beginnend in Spalte G. Über der Prognosespalte (hier in Zelle H9) wird ein Wert für die Glättungskonstante (alpha) eingetragen Zur Vereinfachung wird ihm der Bereichsname quotAlpha. quot zugewiesen (Der Name wird mit dem Befehl quotInsertNameCreatequot zugewiesen.) Das LES-Modell wird initialisiert, indem die ersten beiden Prognosen gleich dem ersten Istwert der saisonbereinigten Serie gesetzt werden. Die hier verwendete Formel für die LES-Prognose ist die rekursive Einzelformel des Brown8217s-Modells: Diese Formel wird in der Zelle entsprechend der dritten Periode (hier Zelle H15) eingegeben und von dort nach unten kopiert. Beachten Sie, dass sich die LES-Prognose für den aktuellen Zeitraum auf die beiden vorherigen Beobachtungen und die beiden vorherigen Prognosefehler sowie auf den Wert von alpha bezieht. Somit bezieht sich die Prognoseformel in Zeile 15 nur auf Daten, die in Zeile 14 und früher verfügbar waren. (Natürlich könnten wir statt der linearen exponentiellen Glättung einfach statt der linearen exponentiellen Glättung verwenden, könnten wir stattdessen die SES-Formel ersetzen. Wir könnten auch Holt8217s anstelle von Brown8217s LES-Modell verwenden, was zwei weitere Spalten von Formeln erfordern würde, um das Niveau und den Trend zu berechnen Die in der Prognose verwendet werden.) Die Fehler werden in der nächsten Spalte (hier Spalte J) durch Subtrahieren der Prognosen von den Istwerten berechnet. Der Quadratwurzel-Quadratfehler wird als Quadratwurzel der Varianz der Fehler plus dem Quadrat des Mittelwerts berechnet. (Dies ergibt sich aus der mathematischen Identität: MSE VARIANCE (Fehler) (AVERAGE (Fehler)). 2) Bei der Berechnung des Mittelwertes und der Varianz der Fehler in dieser Formel sind die ersten beiden Perioden ausgeschlossen, weil das Modell nicht tatsächlich mit der Prognose beginnt Die dritte Periode (Zeile 15 auf der Kalkulationstabelle). Der optimale Wert von alpha kann entweder durch manuelles Ändern von alpha gefunden werden, bis das minimale RMSE gefunden wird, oder Sie können das quotSolverquot verwenden, um eine genaue Minimierung durchzuführen. Der Wert von alpha, den der Solver gefunden hat, wird hier angezeigt (alpha0.471). Es ist in der Regel eine gute Idee, die Fehler des Modells (in transformierten Einheiten) zu zeichnen und ihre Autokorrelationen zu berechnen und zu zeichnen, bis zu einer Saison. Hier ist eine Zeitreihenfolge der (saisonbereinigten) Fehler: Die Fehlerautokorrelationen werden mit Hilfe der CORREL () - Funktion berechnet, um die Korrelationen der Fehler selbst mit einer oder mehreren Perioden zu berechnen - Einzelheiten sind im Kalkulationsblatt dargestellt . Hier ist ein Diagramm der Autokorrelationen der Fehler bei den ersten fünf Verzögerungen: Die Autokorrelationen bei den Verzögerungen 1 bis 3 sind sehr nahe bei Null, aber die Spitze bei Verzögerung 4 (deren Wert 0,35 ist) ist etwas mühsam Saisonale Anpassungsprozess nicht vollständig erfolgreich war. Allerdings ist es eigentlich nur marginal signifikant. 95 Signifikanzbanden zum Testen, ob Autokorrelationen signifikant von Null verschieden sind, sind ungefähr plus-oder-minus 2SQRT (n-k), wobei n die Stichprobengröße und k die Verzögerung ist. Hier ist n gleich 38 und k variiert von 1 bis 5, so daß die Quadratwurzel von - n-minus-k für alle von etwa 6 ist, und daher sind die Grenzen für das Testen der statistischen Signifikanz von Abweichungen von Null ungefähr plus - Oder-minus 26 oder 0,33. Wenn Sie den Wert von alpha von Hand in diesem Excel-Modell variieren, können Sie den Effekt auf die Zeitreihen und Autokorrelationsdiagramme der Fehler sowie auf den Root-mean-squared-Fehler beobachten, der nachfolgend dargestellt wird. Am Ende der Kalkulationstabelle wird die Prognoseformel quasi in die Zukunft gestartet, indem lediglich Prognosen für tatsächliche Werte an dem Punkt ausgetauscht werden, an dem die tatsächlichen Daten ablaufen - d. h. Wo die Zukunft beginnt. (Mit anderen Worten, in jeder Zelle, in der ein zukünftiger Datenwert auftreten würde, wird eine Zellreferenz eingefügt, die auf die Prognose für diese Periode hinweist.) Alle anderen Formeln werden einfach von oben nach unten kopiert: Beachten Sie, dass die Fehler für die Prognosen von Die Zukunft werden alle berechnet, um Null zu sein. Dies bedeutet nicht, dass die tatsächlichen Fehler null sein werden, sondern lediglich die Tatsache, dass wir für die Vorhersage davon ausgehen, dass die zukünftigen Daten den Prognosen im Durchschnitt entsprechen werden. Die daraus resultierenden LES-Prognosen für die saisonbereinigten Daten sehen wie folgt aus: Mit diesem für a-Periodenprognosen optimalen Wert von alpha ist der prognostizierte Trend leicht nach oben, was auf den lokalen Trend in den letzten 2 Jahren zurückzuführen ist oder so. Für andere Werte von alpha könnte eine sehr unterschiedliche Trendprojektion erhalten werden. Es ist normalerweise eine gute Idee, zu sehen, was mit der langfristigen Trendprojektion geschieht, wenn Alpha variiert wird, weil der Wert, der für kurzfristige Prognosen am besten ist, nicht notwendigerweise der beste Wert für die Vorhersage der weiter entfernten Zukunft sein wird. Dies ist beispielsweise das Ergebnis, das erhalten wird, wenn der Wert von alpha manuell auf 0,25 gesetzt wird: Der projizierte Langzeittrend ist jetzt eher negativ als positiv Mit einem kleineren Wert von alpha setzt das Modell mehr Gewicht auf ältere Daten Seine Einschätzung des aktuellen Niveaus und Tendenz und seine langfristigen Prognosen spiegeln den in den letzten 5 Jahren beobachteten Abwärtstrend anstatt den jüngsten Aufwärtstrend wider. Dieses Diagramm zeigt auch deutlich, wie das Modell mit einem kleineren Wert von alpha langsamer ist, um auf quotturning pointsquot in den Daten zu antworten und daher tendiert, einen Fehler des gleichen Vorzeichens für viele Perioden in einer Reihe zu machen. Die Prognosefehler von 1-Schritt-Vorhersage sind im Mittel größer als die, die zuvor erhalten wurden (RMSE von 34,4 statt 27,4) und stark positiv autokorreliert. Die Lag-1-Autokorrelation von 0,56 übersteigt den oben berechneten Wert von 0,33 für eine statistisch signifikante Abweichung von Null deutlich. Als Alternative zum Abkürzen des Wertes von Alpha, um mehr Konservatismus in Langzeitprognosen einzuführen, wird manchmal ein Quottrend-Dämpfungsquotfaktor dem Modell hinzugefügt, um die projizierte Tendenz nach einigen Perioden abflachen zu lassen. Der letzte Schritt beim Erstellen des Prognosemodells besteht darin, die LES-Prognosen durch Multiplikation mit den entsprechenden saisonalen Indizes zu veranschaulichen. Somit sind die reseasonalisierten Prognosen in Spalte I einfach das Produkt der saisonalen Indizes in Spalte F und der saisonbereinigten LES-Prognosen in Spalte H. Es ist relativ einfach, Konfidenzintervalle für einstufige Prognosen dieses Modells zu berechnen: Erstens Berechnen Sie den RMSE (root-mean-squared Fehler, der nur die Quadratwurzel der MSE ist) und berechnen Sie dann ein Konfidenzintervall für die saisonbereinigte Prognose durch Addition und Subtraktion zweimal des RMSE. (Im Allgemeinen ist ein 95-Konfidenzintervall für eine Ein-Perioden-Vorausprognose ungefähr gleich der Punktvorhersage plus-oder-minus-zweimal der geschätzten Standardabweichung der Prognosefehler, vorausgesetzt, die Fehlerverteilung ist annähernd normal und die Stichprobengröße Ist groß genug, sagen wir, 20 oder mehr Hier ist die RMSE anstelle der Standardabweichung der Fehler die beste Schätzung der Standardabweichung der zukünftigen Prognosefehler, weil sie auch die Zufallsvariationen berücksichtigt.) Die Vertrauensgrenzen Für die saisonbereinigte Prognose werden dann reseasonalisiert. Zusammen mit der Prognose, durch Multiplikation mit den entsprechenden saisonalen Indizes. In diesem Fall ist die RMSE gleich 27,4 und die saisonbereinigte Prognose für die erste künftige Periode (Dez-93) beträgt 273,2. So dass das saisonbereinigte 95-Konfidenzintervall von 273,2-227,4 218,4 auf 273,2227,4 328,0 liegt. Das Multiplizieren dieser Limits durch Decembers saisonalen Index von 68,61. Erhalten wir niedrigere und obere Konfidenzgrenzen von 149,8 und 225,0 um die Dez-93-Punktprognose von 187,4. Die Vertrauensgrenzen für Prognosen, die länger als eine Periode vorangehen, werden sich in der Regel aufgrund der Unsicherheit über das Niveau und den Trend sowie die saisonalen Faktoren erweitern, da der Prognosehorizont zunimmt, aber es ist schwierig, diese im Allgemeinen nach analytischen Methoden zu berechnen. (Die geeignete Methode zur Berechnung der Vertrauensgrenzen für die LES-Prognose ist die Verwendung der ARIMA-Theorie, aber die Unsicherheit in den saisonalen Indizes ist eine andere Angelegenheit.) Wenn Sie ein realistisches Konfidenzintervall für eine Prognose über mehrere Zeiträume wünschen, Fehler zu berücksichtigen, ist Ihre beste Wette, empirische Methoden zu verwenden: Zum Beispiel, um ein Vertrauensintervall für eine 2-Schritt-Vorausprognose zu erhalten, könnten Sie eine weitere Spalte auf der Kalkulationstabelle erstellen, um eine 2-Schritt-Voraus-Prognose für jeden Zeitraum zu berechnen Durch Booten der Ein-Schritt-Voraus-Prognose). Dann berechnen Sie die RMSE der 2-Schritt-Voraus-Prognose Fehler und verwenden Sie diese als Grundlage für ein 2-Schritt-vor-Konfidenzintervall. Moving Averages und Centered Moving Averages Ein paar Punkte über Saisonalität in einer Zeitreihe tragen wiederholen, auch wenn Sie scheinen offensichtlich. Eins ist, dass der Begriff 8220season8221 nicht unbedingt auf die vier Jahreszeiten des Jahres, die aus dem Kippen der Erde8217s Achse resultieren, verweisen. In der prädiktiven Analytik bedeutet 8220sason8221 oft genau, dass, weil viele der Phänomene, die wir studieren, zusammen mit dem Fortschreiten des Frühlings durch den Winter variieren: Verkauf von Winter - oder Sommerausrüstung, Inzidenz von bestimmten weitverbreiteten Krankheiten, Wetterereignisse, die durch die Lage der Jet-Stream und Änderungen in der Temperatur des Wassers im östlichen Pazifischen Ozean, und so weiter. Ebenso können Ereignisse, die regelmäßig auftreten, wie meteorologische Jahreszeiten wirken, obwohl sie nur eine dünne Verbindung zu den Sonnenwenden und Äquinoktien haben. Acht-Stunden-Verschiebungen in Krankenhäusern und Fabriken oft in der Inzidenz der Einnahmen und Ausgaben für Energie ausgedrückt, eine Saison ist acht Stunden lang und die Jahreszeiten Zyklus jeden Tag, nicht jedes Jahr. Fälligkeitsdaten für Steuern signalisieren den Beginn einer Flut von Dollars in städtische, staatliche und föderale Schätze dort, die Saison könnte ein Jahr lang (persönliche Einkommensteuer), sechs Monate (Grundsteuer in vielen Staaten), vierteljährlich (viele Körperschaftssteuern ), und so weiter. Es ist ein wenig merkwürdig, dass wir das Wort 8220season8221 haben, um allgemein auf die regelmäßig wiederkehrende Zeitspanne zu verweisen, aber keinen allgemeinen Begriff für den Zeitraum, in dem eine volle Umdrehung der Jahreszeiten auftritt. 8220Cycle8221 ist möglich, aber in der Analytik und Prognose wird dieser Begriff gewöhnlich als eine Periode unbestimmter Länge, wie z. B. eines Konjunkturzyklus, bezeichnet. In Abwesenheit eines besseren Begriffs, I8217ve verwendet 8220umfassenden Zeitraum8221 in diesem und den folgenden Kapiteln. Das ist nur terminologisches Verstehen. Die Art und Weise, wie wir die Jahreszeiten und die Zeitspanne identifizieren, in der die Jahreszeiten verlaufen, haben reale, wenn auch oft geringfügige Konsequenzen, wie wir ihre Auswirkungen messen. Die folgenden Abschnitte behandeln, wie einige Analysten variieren, wie sie berechnen, gleitende Mittelwerte, je nachdem, ob die Anzahl der Jahreszeiten ist ungerade oder sogar. Mit Moving Averages anstelle von einfachen Mitteln Angenommen, dass eine große Stadt erwägt die Umverteilung ihrer Verkehrspolizei, um besser auf die Inzidenz des Fahrens, während behindert, die die Stadt glaubt erhöht hat. Vor vier Wochen trat eine neue Gesetzgebung in Kraft, die den Besitz und die Erholung von Marihuana legalisierte. Seither scheint die tägliche Anzahl von Verkehrsverhaftungen für DWI zu steigen. Kompliziert ist die Tatsache, dass die Zahl der Verhaftungen an Freitagen und Samstagen zu spitzen scheint. Um zu helfen, Plan für Arbeitskraftanforderungen in die Zukunft, you8217d zu prognostizieren irgendeine zugrunde liegende Tendenz, die gegründet wird. You8217d auch gerne Zeit der Bereitstellung Ihrer Ressourcen zu berücksichtigen, jede Wochenende im Zusammenhang mit Saisonalität that8217s statt. Abbildung 5.9 enthält die relevanten Daten, mit denen Sie arbeiten müssen. Abbildung 5.9 Mit diesem Datensatz bildet jeder Wochentag eine Saison. Sogar durch bloßes Augapfeln der Tabelle in Abbildung 5.9. Können Sie sagen, dass der Trend der Zahl der täglichen Verhaftungen ist. You8217ll haben zu planen, um die Zahl der Verkehr Offiziere zu erweitern, und hoffen, dass die Tendenz aus bald. Weiterhin sind die Daten die Vorstellung, dass mehr Verhaftungen routinemäßig am Freitag und Samstag stattfinden, so dass Ihre Ressourcenzuweisung muss diese Spikes Adresse. Aber Sie müssen den zugrunde liegenden Trend zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie auf zu bringen. Sie müssen auch die erwartete Größe der Wochenenden Spikes zu quantifizieren, um festzustellen, wie viele zusätzliche Polizei müssen Sie für unberechenbare Fahrer an diesen Tagen. Das Problem ist, dass, wie Sie noch don8217t wissen, wie viel von der täglichen Anstieg ist aufgrund der Trend und wie viel ist auf diese Wochenendeffekt. Sie können beginnen, indem Sie die Zeitreihe. Früher in diesem Kapitel, in 8220Simple saisonale Mittelwerte, 8221 sahen Sie ein Beispiel, wie man eine Zeitreihe zu trennen, um die saisonalen Effekte mit der Methode der einfachen Mitteln zu isolieren. In diesem Abschnitt sehen Sie, wie dies zu tun, indem Sie mit gleitenden Mittelungen8212 wahrscheinlich, die Moving-Averages-Ansatz wird häufiger in der prädiktiven Analytik als die einfache Mittel-Ansatz verwendet. Es gibt verschiedene Gründe für die größere Popularität von gleitenden Durchschnitten, unter ihnen, dass die Moving-Averages-Ansatz nicht Sie bitten, Ihre Daten in den Prozess der Quantifizierung eines Trends zu kollabieren. Daran erinnern, dass das frühere Beispiel es notwendig gemacht hatte, vierteljährliche Durchschnittswerte auf Jahresdurchschnitte zu reduzieren, einen jährlichen Trend zu berechnen und dann ein Viertel des jährlichen Trends in jedem Quartal des Jahres zu verteilen. Dieser Schritt war notwendig, um den Trend von den saisonalen Auswirkungen zu entfernen. Im Gegensatz dazu ermöglicht der Moving-Averages-Ansatz, die Zeitreihen zu trennen, ohne auf diese Art von Maschinierung zurückzugreifen. Abbildung 5.10 zeigt, wie der Moving-Averages-Ansatz im vorliegenden Beispiel funktioniert. Abbildung 5.10 Der gleitende Durchschnitt im zweiten Diagramm verdeutlicht den zugrunde liegenden Trend. Abbildung 5.10 fügt eine gleitende Durchschnittsspalte und eine Spalte für bestimmte Jahreszeiten hinzu. Auf den Datensatz in Abbildung 5.9. Beide Ergänzungen bedürfen einer Diskussion. Die Spikes in Festnahmen, die am Wochenende stattfinden gibt Ihnen Grund zu der Annahme, dass you8217re Arbeit mit Jahreszeiten, die einmal pro Woche wiederholen. Beginnen Sie also, indem Sie den Durchschnitt für die Umfassungsperiode8212 erhalten, dh die ersten sieben Jahreszeiten, Montag bis Sonntag. Die Formel für den Durchschnitt in Zelle D5, dem ersten verfügbaren gleitenden Durchschnitt, ist wie folgt: Diese Formel wird kopiert und über die Zelle D29 eingefügt, so dass Sie 25 gleitende Mittelwerte auf der Grundlage von 25 Läufen von sieben aufeinander folgenden Tagen haben. Beachten Sie, dass, um sowohl die erste und die letzten Beobachtungen in der Zeitreihe zeigen, habe ich die Zeilen 10 bis 17 ausgeblendet. Sie können sie ausblenden, wenn Sie möchten, in diesem Kapitel8217s Arbeitsmappe, verfügbar von der Publisher8217s Website. Erstellen Sie eine Mehrfachauswahl sichtbarer Zeilen 9 und 18, klicken Sie mit der rechten Maustaste auf einen ihrer Zeilenüberschriften und wählen Sie im Kontextmenü die Option Einblenden aus. Wenn Sie eine worksheet8217s Zeilen ausblenden, wie I8217ve in Abbildung 5.10 durchgeführt. Werden alle Charted-Daten in den ausgeblendeten Zeilen auch im Diagramm ausgeblendet. Die X-Achsen-Etiketten identifizieren nur die Datenpunkte, die im Diagramm erscheinen. Da jeder gleitende Durchschnitt in Abbildung 5.10 sieben Tage umfasst, wird kein gleitender Durchschnitt mit den ersten drei oder letzten drei tatsächlichen Beobachtungen gepaart. Das Kopieren und Einfügen der Formel in Zelle D5 einen Tag nach Zelle D4 führt Sie aus Beobachtungen heraus8212die keine Beobachtung in Zelle C1 aufgezeichnet ist. Ähnlich ist kein gleitender Durchschnitt unterhalb der Zelle D29 aufgezeichnet. Das Kopieren und Einfügen der Formel in D29 in D30 würde eine Beobachtung in Zelle C33 erfordern, und keine Beobachtung ist für den Tag verfügbar, den die Zelle repräsentieren würde. Es wäre natürlich möglich, die Länge des gleitenden Durchschnittes auf etwa fünf statt sieben zu verkürzen. Das bedeutet, dass die gleitenden Durchschnittsformeln in Abbildung 5.10 in Zelle D4 anstelle von D5 beginnen könnten. Doch bei dieser Art von Analyse, wollen Sie die Länge der gleitenden Durchschnitt gleich der Anzahl der Jahreszeiten: sieben Tage in der Woche für Ereignisse, die wöchentlich wiederkehren, impliziert einen gleitenden Durchschnitt der Länge sieben und vier Quartalen in einem Jahr für Veranstaltungen, die Recur jährlich impliziert einen gleitenden Durchschnitt der Länge vier. In ähnlicher Weise analysieren wir saisonale Effekte in der Regel so, dass sie innerhalb der umschreibenden Zeitspanne auf Null gehen. Wie Sie in diesem ersten Kapitel, auf einfachen Durchschnittswerten, gesehen haben, geschieht dies, indem man den Durchschnitt der vier Quartale in einem Jahr berechnet und dann den Durchschnitt des Jahres von jeder vierteljährlichen Zahl subtrahiert. So wird sichergestellt, dass die Summe der saisonalen Effekte null ist. Im Gegenzug, dass8217s nützlich, weil es die saisonalen Auswirkungen auf eine gemeinsame footing8212a Sommereffekt von 11 ist so weit von der Mittelwert als Winter-Effekt von 821111.Wenn Sie wollen, um durchschnittlich fünf Jahreszeiten anstelle von sieben, um Ihre gleitenden Durchschnitt, you8217re besser Ein Phänomen zu finden, das sich alle fünf Jahreszeiten wiederholt, anstatt alle sieben. Allerdings, wenn Sie den Durchschnitt der saisonalen Effekte später in den Prozess zu nehmen, sind diese Mittelwerte wahrscheinlich nicht auf Null summieren. Es ist notwendig, an diesem Punkt zu kalibrieren oder zu normalisieren. Die Mittelwerte, so daß ihre Summe Null ist. Wenn that8217s getan, die durchschnittlichen saisonalen Mittel drücken die Wirkung auf eine Zeitperiode der Zugehörigkeit zu einer bestimmten Saison. Nach der Normalisierung werden die saisonalen Mittelwerte als saisonale Indizes bezeichnet, die dieses Kapitel bereits mehrfach erwähnt hat. Sie sehen, wie es später in diesem Kapitel funktioniert, in 8220Detrending der Serie mit Moving Averages.8221 Verstehen spezieller Jahreszeiten Abbildung 5.10 zeigt auch, was in der Spalte E als saisonabhängig bezeichnet wird. Sie sind nach der Subtraktion des gleitenden Mittelwerts von der tatsächlichen Beobachtung übrig geblieben. Um ein Gefühl dafür zu bekommen, was die spezifischen Saisonzeiten darstellen, betrachten Sie den gleitenden Durchschnitt in Zelle D5. Es ist der Mittelwert der Beobachtungen in C2: C8. Die Abweichungen der einzelnen Beobachtungen aus dem gleitenden Durchschnitt (z. B. C2 8211 D5) werden auf Null berechnet. Daher drückt jede Abweichung die Wirkung aus, die mit dem bestimmten Tag in dieser bestimmten Woche verbunden ist. It8217s eine spezifische saisonale, dann8212spezifisch, weil die Abweichung gilt für diese besondere Montag oder Dienstag und so weiter, und saisonal, weil in diesem Beispiel behandeln wir jeden Tag, als ob es eine Saison in der Umfassungszeit von einer Woche waren. Weil jede saisonale Maßnahme den Effekt des Seins in dieser Jahreszeit gegenüber dem gleitenden Durchschnitt für diese Gruppe von (hier) sieben Jahreszeiten misst, können Sie anschließend die spezifischen Saisonzeiten für eine bestimmte Saison (zB alle Freitage in Ihrem Zeit-Serie) zu schätzen, dass Saison8217s allgemeine, anstatt spezifische, Wirkung. Dieser Durchschnitt wird nicht durch eine zugrunde liegende Tendenz in der Zeitreihe verwechselt, weil jede spezifische Saison eine Abweichung von ihrem eigenen bewegten Durchschnitt ausdrückt. Aligning the Moving Averages There8217s auch die Frage der Ausrichtung der gleitenden Mittelwerte mit dem ursprünglichen Datensatz. In Abbildung 5.10. Ich habe jeden gleitenden Durchschnitt mit dem Mittelpunkt des Bereichs der Beobachtungen ausgerichtet, die er enthält. So berechnet beispielsweise die Formel in Zelle D5 die Beobachtungen in C2: C8, und ich habe sie mit der vierten Beobachtung, dem Mittelpunkt des gemittelten Bereichs, durch Platzieren in Zeile 5 ausgerichtet. Diese Anordnung wird als zentrierter gleitender Durchschnitt bezeichnet . Und viele Analytiker bevorzugen es, jeden gleitenden Durchschnitt mit dem Mittelpunkt der Beobachtungen auszurichten, die er durch - schnitt. Beachten Sie, dass in diesem Zusammenhang 8220midpoint8221 auf die Mitte einer Zeitspanne verweist: Donnerstag ist der Mittelpunkt von Montag bis Sonntag. Es bezieht sich nicht auf den Median der beobachteten Werte, obwohl es natürlich in der Praxis so funktionieren könnte. Ein anderer Ansatz ist der nachlaufende gleitende Durchschnitt. In diesem Fall wird jeder gleitende Durchschnitt mit der abschließenden Beobachtung ausgerichtet, die es im Durchschnitt8212 gibt, und folglich verfolgt es hinter seinen Argumenten. Dies ist oft die bevorzugte Anordnung, wenn Sie einen gleitenden Durchschnitt als Prognose verwenden möchten, wie dies bei exponentieller Glättung der Fall ist, da Ihr endgültiger gleitender Durchschnitt mit der endgültigen verfügbaren Beobachtung zusammenfällt. Centered Moving Averages mit Even Numbers of Seasons Wir nehmen in der Regel ein spezielles Verfahren, wenn die Anzahl der Jahreszeiten ist sogar eher als ungerade. Das ist der typische Sachverhalt: In der Umfassungsperiode gibt es für die typischen Jahreszeiten, wie Monate, Quartiere und vierziger Jahre (für Wahlen), sogar Jahreszahlen. Die Schwierigkeit mit einer geraden Anzahl von Jahreszeiten ist, dass es keinen Mittelpunkt gibt. Zwei ist nicht der Mittelpunkt eines Bereichs, der bei 1 beginnt und bei 4 endet, und keiner ist 3, wenn man sagen kann, daß er einen hat, sein Mittelpunkt ist 2,5. Sechs ist nicht der Mittelpunkt von 1 bis 12, und keiner ist sein rein theoretischer Mittelpunkt ist 6,5. Um zu handeln, als ob ein Mittelpunkt existiert, müssen Sie eine Ebene der Mittelung auf den gleitenden Durchschnittswerten hinzufügen. Siehe Abbildung 5.11. Abbildung 5.11 Excel bietet mehrere Möglichkeiten, einen gleitenden Mittelpunkt zu berechnen. Die Idee hinter diesem Ansatz, einen gleitenden Durchschnitt zu erreichen, der auf einen vorhandenen Mittelpunkt zentriert ist, wenn dort8217s eine gerade Zahl Jahreszeiten ist, diesen Mittelpunkt vorwärts durch eine halbe Jahreszeit zu ziehen. Sie berechnen einen gleitenden Durchschnitt, der auf den dritten Zeitpunkt zentriert wäre, wenn fünf Jahreszeiten statt vier eine volle Umdrehung des Kalenders bilden. That8217s getan, indem sie zwei aufeinander folgende gleitende Durchschnitte und Mittelung sie. Also in Abbildung 5.11. Dort8217s ein gleitender Durchschnitt in der Zelle E6, der die Werte in D3: D9 mittelt. Weil es vier saisonale Werte in D3: D9 gibt, wird der gleitende Durchschnitt in E6 als zentriert in der imaginären Saison 2.5 gedacht, einen halben Punkt kurz vor der ersten verfügbaren Kandidatensaison, 3. (Seasons 1 und 2 sind als Mittelpunkte nicht verfügbar Mangel an Daten zum Durchschnitt vor Saison 1.) Beachten Sie jedoch, dass der gleitende Durchschnitt in Zelle E8 die Werte in D5: D11, die zweite bis fünfte in der Zeitreihe mittelt. Dieser Mittelwert wird bei (imaginärer) Punkt 3.5 zentriert, wobei eine volle Periode vor dem Mittelwert bei 2,5 liegt. Durch Mittelung der beiden gleitenden Mittelwerte, so das Denken geht, können Sie den Mittelpunkt des ersten gleitenden Mittelwerts um einen halben Punkt von 2,5 auf 3 ziehen. Das bedeutet, was die Mittelwerte in Spalte F von 5.11 tun. Die Zelle F7 liefert den Mittelwert der sich bewegenden Mittelwerte in E6 und E8. Und der Durchschnitt in F7 ist mit dem dritten Datenpunkt in der ursprünglichen Zeitreihe, in Zelle D7, ausgerichtet, um zu betonen, dass der Durchschnitt auf dieser Jahreszeit zentriert ist. Wenn Sie die Formel in Zelle F7 sowie die sich bewegenden Mittelwerte in den Zellen E6 und E8 erweitern, sehen Sie, dass es sich dabei um einen gewichteten Mittelwert der ersten fünf Werte in der Zeitreihe handelt, wobei der erste und fünfte Wert ein Gewicht haben Von 1 und die zweiten bis vierten Werte bei einem Gewicht von 2. Das führt uns zu einer schnelleren und einfacheren Methode, einen zentrierten gleitenden Durchschnitt mit einer geraden Anzahl von Jahreszeiten zu berechnen. Noch in Abbildung 5.11. Die Gewichte werden im Bereich H3: H11 gespeichert. Diese Formel liefert den ersten zentrierten gleitenden Durchschnitt in Zelle I7: Diese Formel gibt 13,75 zurück. Der mit dem Wert identisch ist, der durch die doppelte Durchschnittsformel in Zelle F7 berechnet wird. Die Bezugnahme auf die Gewichte absolut, mit Hilfe der Dollarzeichen in H3: H11. Können Sie die Formel kopieren und so weit wie nötig einfügen, um den Rest der zentrierten gleitenden Mittelwerte zu erhalten. Detrending der Serie mit gleitenden Mitteln Wenn Sie die gleitenden Mittelwerte aus den ursprünglichen Beobachtungen subtrahiert haben, um die spezifischen Saisonzeiten zu erhalten, haben Sie den zugrunde liegenden Trend aus der Serie entfernt. Was in den spezifischen Jahreszeiten verbleibt, ist normalerweise eine stationäre, horizontale Reihe mit zwei Effekten, die dazu führen, dass die spezifischen Saisonzeiten von einer absolut geraden Linie abweichen: die saisonalen Effekte und der zufällige Fehler in den ursprünglichen Beobachtungen. Abbildung 5.12 zeigt die Ergebnisse für dieses Beispiel. Abbildung 5.12 Die spezifischen saisonalen Effekte für Freitag und Samstag bleiben in den abgebrochenen Reihen klar. Das obere Diagramm in Abbildung 5.12 zeigt die ursprünglichen täglichen Beobachtungen. Sowohl der allgemeine Aufwärtstrend als auch das saisonale Wochenende sind klar. Das untere Diagramm zeigt die spezifischen Saisonzeiten: das Ergebnis der Detrierung der ursprünglichen Serie mit einem gleitenden Durchschnittsfilter, wie bereits in 8220Untersuchung spezieller Jahreszeiten beschrieben.8221 Sie können sehen, dass die detrended Reihe jetzt praktisch horizontal ist (eine lineare Trendlinie für die spezifischen Saisonzeiten Hat einen leichten Abwärtstrend), aber die saisonalen Freitag und Samstag Spikes sind noch vorhanden. Der nächste Schritt ist, über die spezifischen Saisonzeiten hinaus zu den saisonalen Indizes zu gelangen. Siehe Abbildung 5.13. Abbildung 5.13 Die spezifischen saisonalen Effekte werden zuerst gemittelt und dann normalisiert, um die saisonalen Indizes zu erreichen. In Abbildung 5.13. Werden die spezifischen Saisons in Spalte E in der tabellarischen Form im Bereich H4: N7 neu angeordnet. Der Zweck ist einfach, um es einfacher, die saisonalen Mittelwerte berechnen. Diese Mittelwerte werden in H11: N11 gezeigt. Jedoch sind die Zahlen in H11: N11 Mittelwerte, nicht Abweichungen von einem Durchschnitt, und daher können wir erwarten, dass sie auf Null summieren. Wir müssen sie noch anpassen, damit sie Abweichungen von einem großen Mittel ausdrücken. Das große Mittel erscheint in Zelle N13 und ist der Durchschnitt der saisonalen Mittelwerte. Wir können zu den saisonalen Indizes gelangen, indem wir den großen Mittelwert in N13 von jedem der saisonalen Mittelwerte subtrahieren. Das Ergebnis liegt im Bereich H17: N17. Diese saisonalen Indizes sind nicht mehr spezifisch für einen bestimmten gleitenden Durchschnitt, wie dies bei den spezifischen Saisonzeiten in Spalte E der Fall ist. Weil sie auf der Grundlage eines Durchschnittes jeder Instanz einer gegebenen Jahreszeit den durchschnittlichen Effekt einer gegebenen Jahreszeit über die Vier Wochen in der Zeitreihe. Darüber hinaus handelt es sich hierbei um Maßnahmen einer Saison8217s8212wir, ein Tag8217s8212Effekt auf Verkehrsstöße vis-224-vis dem Durchschnitt für einen Sieben-Tage-Zeitraum. Wir können jetzt jene saisonalen Indizes verwenden, um die Serie zu deseasonalisieren. We8217ll verwenden die entsalzte Reihe, um Prognosen durch lineare Regression oder Holt8217s Methode der Glättung von Trendreihen (siehe Kapitel 4) zu erhalten. Dann fügen wir einfach die saisonalen Indizes zurück in die Prognosen zu reseasonalize sie. All dies erscheint in Abbildung 5.14. Abbildung 5.14 Nachdem Sie die saisonalen Indizes haben, sind die letzten Schlüsse, wie hier angewendet, die gleichen wie in der Methode der einfachen Mittelwerte. Die in Abbildung 5.14 dargestellten Schritte sind weitgehend dieselben wie in den Abbildungen 5.6 und 5.7. Diskutiert in den folgenden Abschnitten. Deseasonalisierung der Beobachtungen Subtrahieren Sie die saisonalen Indizes von den ursprünglichen Beobachtungen, um die Daten zu deseasonalisieren. Sie können dies tun, wie in Abbildung 5.14 gezeigt. In dem die ursprünglichen Beobachtungen und die saisonalen Indizes als zwei Listen, beginnend in der gleichen Zeile, Spalten C und F, angeordnet sind. Diese Anordnung macht es ein wenig leichter, die Berechnungen zu strukturieren. Sie können auch die Subtraktion durchführen, wie in Abbildung 5.6 gezeigt. In dem die ursprünglichen vierteljährlichen Beobachtungen (C12: F16), die vierteljährlichen Indizes (C8: F8) und die entsalzten Ergebnisse (C20: F24) tabellarisch dargestellt sind. Diese Anordnung macht es ein wenig einfacher, sich auf die saisonalen Indizes und die gealterten Quartalsschwerpunkte zu konzentrieren. Prognose aus der Deseasonalized Observations In Abbildung 5.14. Sind die entsalzten Beobachtungen in Spalte H und in Abbildung 5.7 in Spalte C aufgeführt. Unabhängig davon, ob Sie einen Regressionsansatz oder einen Glättungsansatz für die Prognose verwenden wollen, ist es am besten, die entsalzten Beobachtungen in einer einzigen Spaltenliste zu ordnen. In Abbildung 5.14. Die Prognosen sind in Spalte J. Die folgende Matrixformel wird im Bereich J2: J32 eingegeben. In diesem Kapitel habe ich darauf hingewiesen, dass Excel die Standardwerte 1 liefert, wenn Sie das Argument x-values ​​aus den Argumenten TREND () function8217s weglassen. 2. N ist. Wobei n die Anzahl der y-Werte ist. In der gerade angegebenen Formel enthält H2: H32 31 y-Werte. Da das Argument, das normalerweise die x-Werte enthält, fehlt, liefert Excel die Standardwerte 1. 2. 31. Das sind die Werte, die wir sowieso verwenden möchten, in Spalte B, so dass die Formel wie angegeben zu TREND äquivalent ist (H2: H32, B2: B32). Und das ist die Struktur, die in D5 verwendet wird: D24 in Abbildung 5.7: Einstufige Prognose erstellen Bisher haben Sie für Prognosen der entsalzten Zeitreihen von t 1 bis t 31 in Abbildung 5.14 geplant. Und von t 1 bis t 20 in Abbildung 5.7. Diese Prognosen stellen nützliche Informationen für verschiedene Zwecke dar, einschließlich der Bewertung der Genauigkeit der Prognosen mittels einer RMSE-Analyse. Aber Ihr Hauptzweck ist die Prognose mindestens die nächste, noch unobserved Zeitraum. Um das zu erhalten, können Sie zunächst von der TREND () - oder der LINEST () - Funktion prognostizieren, wenn Sie mit Regression oder mit der exponentiellen Glättungsformel arbeiten, wenn Sie die Methode Holt8217s verwenden. Dann können Sie den zugehörigen saisonalen Index zur Regressions - oder Glättungsprognose hinzufügen, um eine Prognose zu erhalten, die sowohl den Trend als auch den saisonalen Effekt beinhaltet. In Abbildung 5.14. Erhalten Sie die Regressionsvorhersage in Zelle J33 mit dieser Formel: In dieser Formel sind die y-Werte in H2: H32 die gleichen wie in den anderen TREND () Formeln in Spalte J. So sind die (Standard-) x-Werte von 1 Durch 32. Nun aber liefern Sie einen neuen x-Wert als das dritte Argument function8217s, das Sie TREND () in Zelle B33 suchen. It8217s 32. Der nächste Wert von t. Und Excel gibt den Wert 156.3 in Zelle J33 zurück. Die Funktion TREND () in Zelle J33 sagt Excel, in der Tat, 8220 Berechnen Sie die Regressionsgleichung für die Werte in H2: H32 regressiv auf den t-Werten 1 bis 31. Wenden Sie die Regressionsgleichung auf den neuen x-Wert von 32 an und geben Sie das Ergebnis zurück.8221 Sie finden denselben Ansatz in Zelle D25 von Abbildung 5.7. Wo die Formel, um die One-Step-Ahead-Prognose ist dies: Hinzufügen der saisonalen Indizes zurück Im letzten Schritt ist es, die Prognosen durch Addition der saisonalen Indizes zu den Trend-Prognosen zu reseasonalisieren, umzukehren, was Sie haben vier Schritte zurück, wenn Sie subtrahiert Indizes aus den ursprünglichen Beobachtungen. Dies geschieht in Spalte F in Abbildung 5.7 und Spalte K in Abbildung 5.14. Don8217t vergessen, den entsprechenden saisonalen Index für die One-Step-Ahead-Prognose hinzuzufügen, wobei die Ergebnisse in Zelle F25 in Abbildung 5.7 und in Zelle K33 in Abbildung 5.14 gezeigt werden. (I8217ve schraffierte die einstufigen Zellen sowohl in Abbildung 5.7 als auch Abbildung 5.14, um die Prognosen hervorzuheben.) Sie können Diagramme von drei Darstellungen der Verkehrsstoppdaten in Abbildung 5.15 finden. Die entsalzte Reihe, die lineare Prognose der entsalzten Daten und die reseasonalisierten Prognosen. Beachten Sie, dass die Prognosen sowohl die allgemeine Tendenz der ursprünglichen Daten und seine FridaySaturday Spikes enthalten. Abbildung 5.15 Charting der Prognosen.

No comments:

Post a Comment