Wednesday, November 9, 2016

Lineare Regression Gleitende Durchschnittsformel

8.5 Endpunkt Gleitender Durchschnitt Der Endpunkt Gleitender Durchschnitt (EPMA) legt einen Durchschnittspreis fest, indem er eine Gerade der kleinsten Quadrate (siehe Lineare Regression) über die letzten N Tage schließt und den Endpunkt der Linie (dh die Linie wie letztes) annimmt Tag) als Durchschnitt. Diese Berechnung wird durch eine Reihe von anderen Namen, einschließlich der kleinsten Quadrate gleitenden Durchschnitt (LSQMA), bewegte lineare Regression und Zeitreihenvorhersage (TSF). Joe Sharprsquos ldquomodified bewegt averagerdquo ist die gleiche Sache zu. Die Formel endet als ein einfacher gewichteter Durchschnitt der vergangenen N Preise, mit Gewichten gehen von 2N-1 bis - N2. Dies ist leicht aus den Formeln der kleinsten Quadrate abgeleitet, aber nur auf der Gewichtung der Verbindung zu den kleinsten Quadraten ist überhaupt nicht offensichtlich. Wenn p1 ist heute rsquos schließen, p2 yesterdays, etc, dann Die Gewichte sinken um 3 für jeden älteren Tag, und gehen für das älteste Drittel der N Tage negativ. Die folgende Grafik zeigt, dass für N15. Die Negative bedeuten, der Durchschnitt ist ldquooverweightrdquo auf die jüngsten Preise und kann Überschreitung Preisaktion nach einem plötzlichen Sprung. Im Allgemeinen jedoch, weil die gepaßte Linie bewusst durch die Mitte der neuen Preise geht, die EPMA neigt, in der Mitte der neuen Preise zu sein, oder eine Projektion von, wo sie schien, zu trimmen. Itrsquos interessant, die EPMA mit einem einfachen SMA zu vergleichen (siehe Simple Moving Average). Ein SMA zieht eine horizontale Linie durch die Vergangenheit N Tage Preise (ihre Mittel), während die EPMA eine schräge Linie zeichnet. Die Trägheitsanzeige (siehe Trägheitsmoment) nutzt die EPMA. Kevin Ryde Chart ist freie Software, die Sie es verteilen und / oder unter den Bedingungen der GNU General Public License ändern können, wie sie von der Free Software Foundation Version 3 veröffentlicht wird , Oder (nach Ihrer Wahl) jede spätere Version. Linear Regression Indicator Die lineare Regression Indicator wird für Trend-Erkennung und Trend folgen in ähnlicher Weise wie gleitende Durchschnitte verwendet. Der Indikator sollte nicht mit Linearregressionslinien verwechselt werden, die zu einer Reihe von Datenpunkten gerade Linien sind. Die lineare Regressions Indicator plottet die Endpunkte einer ganzen Reihe von linearen Regressionsgeraden an aufeinanderfolgenden Tagen gezogen. Der Vorteil der linearen Regressions Indicator über einer normalen gleitender Durchschnitt ist, dass es weniger Verzögerung als der gleitende Mittelwert hat, reagiert schneller auf Änderungen in der Richtung. Der Nachteil ist, dass es anfälliger für whipsaws ist. Der Linear Regression Indicator ist nur für den Handel mit starken Trends geeignet. Signale werden ähnlich wie gleitende Mittelwerte genommen. Verwenden Sie die Richtung der linearen Regression Indikator zu betreten und verlassen Trades mit einer längerfristigen Indikator als Filter. Gehen Sie lange, wenn die Linear Regression Indicator auftaucht oder beenden Sie einen kurzen Handel. Gehen Sie kurz (oder verlassen einen langen Handel), wenn die Linear Regression Indicator ausgeschaltet wird. Eine Variation des oben ist Trades einzugeben, wenn der Kurs die lineare Regression Indikator kreuzt, aber immer noch verlassen, wenn die lineare Regression Indikator nach unten dreht. Beispiel Mäuse über Diagrammbeschriftungen, um Handelssignale anzuzeigen. Gehen Sie lange L, wenn der Kurs über dem 100-Tage-Linear-Regressions-Indikator kreuzt, während der 300-Tage-Anstieg ansteigt. Exit X, wenn die 100-tägige Linear Regression Indicator ausfällt Gehen Sie bei L erneut, wenn der Kurs über dem 100-Tage Linear Regression Indicator Exit geht X, wenn die 100-Tage-Linear-Regression-Anzeige nachlässt Go long L, wenn der Kurs über 100 Tage hinausgeht Lineare Regression Beenden X, wenn die 100-Tage-Anzeige ausfällt Gehen Sie lange L, wenn die 300-tägige Linear-Regressionsanzeige nach dem oben gekreuzten Preis auftaucht Den 100-Tage-Indikator Exit X, wenn die 300-Tage-Linear Regression Indicator ausgeschaltet wird. Bearish Divergenz auf den Indikator warnt vor einer großen Trendumkehr. Wie finden Sie Regressionsgleichung Schritt 4: Ersetzen in der oben genannten Steigung Formel gegeben. Steilheit (b) (N931XY - (931X) (931Y)) / (N931X 2 - (931X) 2) ((5) (1159.7) - (311) (18.6) / ((5) (19359) - (311) ) 2) (5798.5 - 5784.6) / (96795 - 96721) 13.9 / 74 0.18784 Schritt 5: Ersetzen Sie nun wieder die obige Formel. Schritt 6: Setzen Sie dann diese Werte in die Regressionsgleichungsformel Regressionsgleichung ein. (6.1) (Y) a bx -7.9640.188x. Angenommen, wir wollen den approximativen y-Wert für die Variable x 64 kennen. Dann können wir den Wert in der obigen Gleichung ersetzen. Regressionsgleichung (y) a bx -7.9640.188 (64). -7,96412,032. 4.068 Dieses Beispiel führt Sie, um die Beziehung zwischen zwei Variablen zu finden, indem Sie die Regression aus den oben genannten Schritten berechnen. Steigungsneigung Einleitung Das Steigungsindikator misst den Anstiegs-Überlauf einer linearen Regression, die die beste Linie für einen Preis ist Serie. Über - und unter Null schwankt der Slope-Indikator am besten einem Impuls-Oszillator ohne Grenzen. Es eignet sich nicht für überkaufte / überverkaufte Ebenen, kann aber die Richtung und Stärke eines Trends messen. Es kann auch mit anderen Indikatoren verwendet werden identifizieren potenzielle Einstiegspunkte in einem laufenden Trend. Berechnung Slope basiert auf einer linearen Regression (Linie der besten Passung). Obwohl die Formel für eine lineare Regression außerhalb des Geltungsbereichs dieses Artikels liegt, kann eine lineare Regression unter Verwendung des Raff-Regressionskanals in SharpCharts gezeigt werden. Diese Anzeige weist eine lineare Regression in der Mitte mit äquidistanten äußeren Trendlinien auf. Slope entspricht dem Anstieg-over-run für die lineare Regression. Rise bezieht sich auf die Preisänderung. Run bezieht sich auf den Zeitrahmen. Ein 20-Tage-Slope wäre der Anstieg-over-run einer 20-Tage-lineare Regression. Wenn der Anstieg 4 Punkte und der Lauf ist zwei Tage, dann die Steigung wäre 2 (4/2 2). Wenn der Anstieg -6 Punkte ist und der Durchlauf 2 ist, dann wäre die Steigung -3 (6/2 3). Im Allgemeinen hat eine Fortschrittsperiode eine positive Steigung und eine abnehmende Periode eine negative Steigung. Die Steilheit hängt von der Schärfe des Vor - oder Rückgangs ab. Diagramm 1 zeigt SPY mit drei verschiedenen 20-Tage-Perioden (orange, gelb, blau). Für jeden 20-tägigen Zeitraum wird ein 20-tägiger Raff-Regressionskanal angezeigt. Die lineare Regression in der Mitte stellt die Linie der besten Passung für die 20 Datenpunkte dar. Die gestrichelten Linien markieren das Ende der 20-Tage-Periode und den Wert der Steigung zu diesem Preispunkt. Die erste Periode ist relativ flach und die Steigung ist kaum positiv. Die zweite Periode ist hoch und die Steigung ist eindeutig positiv. Die dritte Periode ist unten und die Steigung ist negativ. Beachten Sie, dass sich die Slope ändert, wenn alte Datenpunkte wegfallen und neue Datenpunkte hinzugefügt werden. Trend Identification Slope kann verwendet werden, um den Trend zu quantifizieren. Eine positive Steigung ist per Definition ein Aufwärtstrend. Ebenso definiert eine negative Steigung einen Abwärtstrend. Abbildung 2 zeigt die Dow Industrials mit einem 52-Wochen-Slope (ein Jahr). Die roten gepunkteten Linien zeigen die Neigung der Steilheit, während die grünen gepunkteten Linien die Neigung positiv zeigen. Die 52-Wochen-Slope war seit etwa zwei Jahren positiv (2006-2007) und dann im Februar 2008 negativ. Obwohl der Dow im März 2009 stark gestiegen ist und stark angestiegen ist, ging die 52-Wochen-Slope erst wieder ins positive Terrain über September 2009. Beachten Sie, dass die Steigung nicht vorhersagen, den Trend. Stattdessen folgt er dem Trend oder den Preispunkten. Dies bedeutet, dass es einige Verzögerung geben wird. Trendstärke Richtungsbewegung kann auch wichtig sein, wenn die Steilheit analysiert wird. Eine negative und steigende Steigung zeigt Verbesserung innerhalb eines Abwärtstrends. Eine positive und fallende Steigung zeigt die Verschlechterung innerhalb eines Aufwärtstrends. Abbildung 3 zeigt die Nasdaq 100 ETF (QQQQ) mit der 100-Tage-Slope. Ein 20 Tage einfacher gleitender Durchschnitt wurde hinzugefügt, um Aufschwünge und Abschwünge zu identifizieren. Eine Steigung steigt, wenn über ihre 20 Tage SMA und fallen, wenn unten. In dieser Tabelle sind vier Tastenkreuzungen (grüne / rote Pfeile) dargestellt. Beachten Sie, dass die Frequenzweichen aufgetreten sind, bevor die Steilheit negativ oder positiv wurde. Dies ist wie eine führende Indikation für die Slope. Beachten Sie auch die Bounce nach dem Negativkreuz im Juli 2008 und den Wiederholungsversuch nach dem positiven Cross im Januar 2009. Diese frühen Pendelstürze forderten einen Umstieg auf das positive Territorium oder eine Trendveränderung, erwarten aber nicht einen ausgedehnten Zug nach jedem gleitenden Durchschnitt Crossover. Die 100-Tage-Slope zog unterhalb ihrer 20-Tage-SMA im August 2009, aber QQQQ hielt direkt auf höher zu bewegen. Eine sinkende und positive Steigung spiegelt weniger Steilheit im Vorrücken wider. Beachten Sie, dass die 100-Tage-Slope positiv blieb, da QQQQ von September 2009 bis Januar 2010 weiter anstieg. Trade Bias Slope allein kann nicht genutzt werden, um an einem anhaltenden Trend teilzunehmen, aber es kann mit anderen Indikatoren verwendet werden, um mögliche Einstiegspunkte zu identifizieren. Insbesondere kann Slope zur Trendidentifizierung verwendet werden, um eine Handelsvorspannung aufzubauen. Eine positive Steigung diktiert eine bullische Bias, während eine negative Steigung eine bearish Bias diktiert. Sobald eine Handelsvorspannung eingerichtet ist, kann ein Impulsoszillator verwendet werden, um potentielle Einstiegspunkte zu identifizieren. Die Wahl des Impuls-Oszillators ist wirklich eine persönliche Vorliebe. Das Beispiel mit Apple verwendet die 100-Tage-Slope mit 10-Tage-Williams R. Die Rückblickperiode für die Slope sollte deutlich länger sein als die Rückblickperiode für den Impuls-Oszillator. Die Slope definiert den größeren Trend, während der Impuls-Oszillator eine Untermenge dieses Trends darstellt. Diagramm 4 zeigt die 100-Tage-Steigung, die sich über Null im Juli bewegt, um eine bullische Vorspannung herzustellen. Für den Impuls-Oszillator werden nur bullische Signale berücksichtigt. Dazu gehören Überlaufwerte, Mittellinienübergänge oder Signalleitungsübergänge. Williams R hat keine Signalleitung, aber MACD und PPO tun. Die blauen gestrichelten Linien zeigen, wann 10-Tage-Williams R unter -80 bewegt, um überverkauft zu werden. Beachten Sie, dass diese Messwerte mit kurzen Pullbacks im Lager übereinstimmen. Abgesehen von der letzten überverkauften Lesung Anfang Dezember, begann Apple seinen Aufwärtstrend bald nach diesen überverkauften Lesungen. Relative Stärke Die Slope von zwei (oder mehr) Wertpapieren kann verglichen werden, um relative Stärke und relative Schwäche zu identifizieren. Die untenstehende Tabelle zeigt Amazon (AMZN) mit dem SampP 500. Beide Wertpapiere werden mit der 20-Tage-Slope (schwarz) angezeigt. Die blaue vertikale Linie markiert einen Punkt im Anfang November, als Amazon eine positive Steigung hatte und der SampP 500 eine negative Steigung hatte. Amazon war deutlich besser als der SampP 500 zu diesem Zeitpunkt. In der Tat, als die SampP 500 Anfang November, Amazon führte die Weise höher mit einem Umzug von 117 auf 143. Beachten Sie, dass Amazon höher, auch als die Slope nach unten verschoben. Die Amazon Slope war Mitte Dezember negativ und die SampP 500 Slope war noch positiv. Diese Situation wiederholte die zweite Woche im Januar. Basierend auf dem Slope-Vergleich ging Amazon von der relativen Stärke im November bis zur relativen Schwäche im Dezember und Januar. Während dieser zwei Monate war die 20-tägige lineare Regression für Amazon abgesunken, während die 20-tägige lineare Regression für den SampP 500 abfallend war. Schlussfolgerungen Slope misst den Anstieg der Überlaufzeit einer linearen Regression. Im Allgemeinen ist ein Aufwärtstrend vorhanden, wenn Slope positiv ist und ein Abwärtstrend besteht, wenn die Steilheit negativ ist. Der Zeitrahmen hängt von der Anzahl der Tage ab. 10 Tage umfasst einen kurzfristigen Trend, 100 Tage einen mittelfristigen Trend und 250 Tage einen langfristigen Trend. Wie mit dem typischen Trend nach Indikatoren, Hangneigung Preis und kehrt nach einem tatsächlichen oben oder unten. Dies beeinträchtigt jedoch nicht seine Nützlichkeit. Trendkennzeichnung und Trendstärke sind auch für Händler wichtige Werkzeuge. Wie mit gleitenden Durchschnitten kann Slope mit Impulsindikatoren verwendet werden, um an einem anhaltenden Trend teilzunehmen. Klicken Sie hier für Live-Diagramm mit der Slope-Anzeige. SharpCharts Slope finden Sie am unteren Rand der Indikatorliste auf SharpCharts. Die Standardparameter (20) können entsprechend dem gewünschten Zeitrahmen geändert werden. Wie alle Indikatoren kann Slope oberhalb des Preisplots, hinter dem Preisplot oder unterhalb des Preisplots positioniert werden. Darüber hinaus können Benutzer auf den grünen Pfeil neben den erweiterten Optionen klicken, um einen gleitenden Durchschnitt oder einen anderen Indikator auf Slope anzuwenden. Vorgeschlagene Scans Oversold im Aufwärtstrend. Der Link zu diesem Scan zeigt Aktien mit einer positiven 100-Tage-Slope und überverkauft Williams R (unter -80) Overbought in einem Abwärtstrend. Der Link zu diesem Scan zeigt Aktien mit einer negativen 100-Tage-Slope und überkauft Williams R (über -20). Weitere Studie Dieses Buch umfasst viel Boden, enthält aber einen Abschnitt über die Regressionsanalyse mit linearen Regressionen. Trading Systeme und Methoden Perry KaufmanLinear Regressionsanalyse ist die am häufigsten verwendete aller statistischen Techniken: Es ist die Studie der linearen. Additive Beziehungen zwischen Variablen. Sei Y die Variable 8220dependent8221, deren Werte Sie vorhersagen wollen, und X1. 8230, X k bezeichnen die 8220 independent8221 Variablen, von denen aus Sie es vorhersagen wollen, wobei der Wert der Variablen X i in der Periode t (oder in der Zeile t des Datensatzes) mit X it bezeichnet ist. Dann ist die Gleichung für die Berechnung des vorhergesagten Wertes von Yt: Diese Formel hat die Eigenschaft, daß die Vorhersage für Y eine Geradenfunktion jeder der X-Variablen ist, die die anderen fixiert hält und die Beiträge von verschiedenen X-Variablen zu der Vorhersagen sind additiv. Die Steigungen ihrer einzelnen Geradenbeziehungen zu Y sind die Konstanten b 1. B 2, 8230, b k. Die sogenannten Koeffizienten der Variablen. Das heißt, b i ist die Änderung des vorhergesagten Wertes von Y pro Einheit der Änderung in X i. unter sonst gleichen Bedingungen. Die zusätzliche Konstante b 0. Die sogenannte Abzweigung. Ist die Vorhersage, dass das Modell machen würde, wenn alle X 8217s waren null (wenn das möglich ist). Die Koeffizienten und Intercept werden durch die kleinsten Quadrate geschätzt. D. h. sie setzen sie gleich den eindeutigen Werten, die die Summe der quadratischen Fehler innerhalb der Stichprobe von Daten minimieren, auf die das Modell aufgebracht wird. Und die Modellvorhersagefehler werden typischerweise als unabhängig und identisch normal verteilt angenommen. Das erste, was Sie wissen sollten, über lineare Regression ist, wie die seltsame Begriff Regression kam, um Modelle wie diese angewendet werden. Sie wurden zuerst von einem Wissenschaftler des 19. Jahrhunderts, Sir Francis Galton, eingehend untersucht. Galton war ein autodidaktischer Naturforscher, Anthropologe, Astronom und Statistiker - und ein echter Indiana-Jones-Charakter. Er war berühmt für seine Erkundungen, und er schrieb ein Bestseller-Buch über, wie man in der Wildnis mit dem Titel "Die Kunst des Reisens: Verschiebungen und Verbesserungen in Wild Places, quot und seine Fortsetzung" The Art of Rough Travel: Vom Praktischen Zu den Peculiar. quot Sie sind noch im Druck und noch als nützliche Ressourcen betrachtet. Sie bieten viele praktische Hinweise für den lebendigen Aufenthalt - wie zB die Behandlung von Speerwunden oder das Extrahieren des Pferdes aus Treibsand - und das Konzept des Schlafsacks der westlichen Welt. Klicken Sie auf diese Abbildungen für mehr Details: Galton war ein Pionier in der Anwendung der statistischen Methoden zu den Messungen in vielen Zweigen der Wissenschaft und im Studieren von Daten über relative Größen der Eltern und ihrer Nachkommen in verschiedenen Sorten von Pflanzen und Tieren, beobachtete er das folgende Phänomen: ein überdurchschnittlich großes Elternteil tendiert dazu, ein überdurchschnittlich großes Kind zu produzieren, aber das Kind ist wahrscheinlich weniger groß als das Elternteil in Bezug auf seine relative Position innerhalb seiner eigenen Generation. Wenn beispielsweise die Elterngröße x Standardabweichungen vom Mittelwert innerhalb der eigenen Generation ist, dann sollten Sie vorhersagen, dass die Kindergröße rx (r mal x) Standardabweichungen vom Mittelwert innerhalb des Satzes der Kinder dieser Eltern ist , Wobei r eine Zahl kleiner als 1 ist. (R ist, was nachstehend als die Korrelation zwischen der Größe des Elternteils und der Größe des Kindes definiert wird). Gleiches gilt für praktisch jede physikalische Messung (und bei den Menschen die meisten Messungen der kognitiven und physischen Fähigkeit) Die auf Eltern und deren Nachkommen durchgeführt werden können. Hier ist das erste veröffentlichte Bild einer Regressionslinie, die diesen Effekt aus einer von Galton im Jahre 1877 vorgestellten Vorlesung veranschaulicht: Das R-Symbol in diesem Diagramm (dessen Wert 0,33 ist) bezeichnet den Steigungskoeffizienten, nicht die Korrelation, obwohl die beiden gleich sind Wenn beide Populationen die gleiche Standardabweichung haben, wie unten gezeigt wird. Galton nannte dieses Phänomen eine Regression zur Mittelmäßigkeit. Was in modernen Worten eine Regression zum Mittel ist. Für einen naiven Beobachter könnte dies darauf hindeuten, dass spätere Generationen weniger Variabilität - buchstäblich mehr Mittelmäßigkeit - zeigen als frühere, aber das ist nicht der Fall. Es ist ein rein statistisches Phänomen. Wenn nicht jedes Kind genauso groß ist wie das Elternteil in relativer Hinsicht (d. h. es sei denn, daß die Korrelation genau gleich 1 ist), müssen die Vorhersagen auf den Mittelwert zurückgehen, ungeachtet der Biologie, wenn ein mittlerer quadratischer Fehler minimiert werden soll. (Rückkehr nach oben.) Regression zum Mittelwert ist eine unausweichliche Tatsache des Lebens. Ihre Kinder können erwartet werden, weniger außergewöhnlich (für besser oder schlechter) als Sie zu sein. Ihr Ergebnis einer Abschlussprüfung in einem Kurs kann erwartet werden, weniger gut (oder schlecht) als Ihre Punktzahl auf dem midterm Prüfung, relativ zu dem Rest der Klasse sein. Ein Baseballspieler, der durchschnittlich in der zweiten Hälfte der Jahreszeit schlägt, kann erwartet werden, um dem Mittel (für alle Spieler) näher zu sein als sein Schlagdurchschnitt in der ersten Hälfte der Jahreszeit. Und so weiter. Das Schlüsselwort hier ist quotexpected. quot Dies bedeutet nicht, dass seine gewisse, dass Regression auf den Mittelwert auftreten wird, aber thats der Weg zu Wette Wir haben bereits einen Vorschlag von Regression-to-the-mean in einigen der Zeitreihen Vorhersage Modelle gesehen Haben wir untersucht: Plots von Prognosen neigen dazu, glatter zu sein Zeigen sie weniger Variabilität - als die Diagramme der ursprünglichen Daten. Dies gilt nicht für zufällige Walk-Modelle, aber es ist im Allgemeinen gilt für gleitende durchschnittliche Modelle und andere Modelle, die ihre Prognosen auf mehr als eine Vergangenheit Beobachtung Basis. Die intuitive Erklärung für den Regressionseffekt ist einfach: Die Sache, die wir vorhersagen wollen, besteht in der Regel aus einer vorhersagbaren Komponente (quotsignalquot) und einer statistisch unabhängigen unvorhersehbaren Komponente (quotnoisequot). Das Beste, was wir hoffen können, ist, nur einen Teil der Veränderlichkeit vorhersagen zu können, der auf das Signal zurückzuführen ist. Daher werden unsere Prognosen tendenziell weniger Variabilität aufweisen als die tatsächlichen Werte, was eine Regression zum Mittel voraussetzt. Eine andere Möglichkeit, den Regressionseffekt zu betrachten, ist die Selektionsvorspannung. Im Allgemeinen kann eine Spielerleistung über einen gegebenen Zeitraum einer Kombination von Geschick und Glück zugeordnet werden. Nehmen wir an, dass wir in der ersten Jahreshälfte eine Stichprobe von Profisportlern wählen, deren Leistung viel besser als der Durchschnitt war (oder Studenten, deren Noten besser waren als der Durchschnitt). Die Tatsache, dass sie so gut in der ersten Hälfte des Jahres getan haben, macht es wahrscheinlich, dass sowohl ihr Können als auch ihr Glück in diesem Zeitraum besser als der Durchschnitt waren. In der zweiten Hälfte des Jahres können wir erwarten, dass sie ebenso geschickt sind, aber wir sollten nicht erwarten, dass sie gleich Glück haben. Daher sollten wir vorhersagen, dass in der zweiten Hälfte ihre Leistung wird näher an den Mittelwert. Inzwischen hatten Spieler, deren Leistung nur durchschnittlich war in der ersten Hälfte wahrscheinlich Geschick und Glück in entgegengesetzte Richtungen für sie. Wir sollten daher erwarten, dass sich ihre Leistung in der zweiten Halbzeit von dem Mittelwert in die eine oder andere Richtung verschiebt, da wir einen anderen unabhängigen Test ihrer Fähigkeit erhalten. Wir wissen nicht, in welche Richtung sie sich bewegen werden, obwohl, so dass auch für sie sollten wir vorherzusagen, dass ihre zweite Halbleistung wird näher an den Mittelwert als ihre erste Hälfte Leistung. Es ist jedoch zu erwarten, dass die tatsächliche Leistung der Spieler in der zweiten Jahreshälfte gleich große Abweichungen aufweisen wird, da sie lediglich aus einer Umverteilung von unabhängig zufälligem Glück bei Spielern mit derselben Qualifikation resultiert Vor. Eine schöne Diskussion der Regression zum Mittelwert im breiteren Kontext der sozialwissenschaftlichen Forschung finden Sie hier. (Zurück zum Seitenanfang) Begründung für Regressionsannahmen Warum sollten wir davon ausgehen, dass Beziehungen zwischen Variablen linear sind. Weil lineare Beziehungen die einfachsten nicht-trivialen Beziehungen sind, die man sich vorstellen kann (und daher am leichtesten zu bearbeiten ist) und. Denn die Quottruequot - Beziehungen zwischen unseren Variablen sind oft über den für uns interessanten Wertebereich mindestens annähernd linear. Auch wenn sie es nicht sind, können wir die Variablen oft so transformieren, dass sie die Beziehungen linearisieren. Dies ist eine starke Annahme, und der erste Schritt bei der Regressionsmodellierung sollte es sein, auf Scatterplots der Variablen (und im Fall von Zeitreihendaten, Plots der Variablen vs. Zeit) zu schauen, um sicherzustellen, dass es von vornherein vernünftig ist. Und nach der Anpassung eines Modells, Plots der Fehler sollte untersucht werden, um zu sehen, wenn es unerklärten nichtlineare Muster. Dies ist besonders wichtig, wenn es darum geht, Vorhersagen für Szenarien außerhalb des Bereichs der historischen Daten vorzunehmen, wobei die Abweichungen von der perfekten Linearität wahrscheinlich den größten Effekt haben werden. Wenn Sie Anhaltspunkte für nichtlineare Beziehungen sehen, ist es möglich (wenn auch nicht garantiert), dass Transformationen von Variablen sie in einer Weise, die nützliche Schlussfolgerungen und Vorhersagen über lineare Regression ergibt, strecken werden. (Zurück zum Seitenanfang.) Und warum sollten wir davon ausgehen, dass die Effekte verschiedener unabhängiger Variablen auf den Erwartungswert der abhängigen Variablen additiv sind? Dies ist eine sehr starke Annahme, stärker als die meisten Menschen erkennen. Sie impliziert, dass der Randeffekt einer unabhängigen Variablen (d. H. Ihres Steigungskoeffizienten) nicht von den aktuellen Werten anderer unabhängiger Variablen abhängt. Aber warum sollte es nicht vorstellbar sein, daß eine unabhängige Variable die Wirkung eines anderen verstärken könnte, oder daß ihre Wirkung sich im Laufe der Zeit systematisch ändern könnte. In einem multiplen Regressionsmodell mißt der geschätzte Koeffizient einer gegebenen unabhängigen Variable vermutlich seine Wirkung, während er für die Anwesenheit der anderen kontrolliert wird. Die Art und Weise, wie das Steuern ausgeführt wird, ist jedoch extrem einfach: Mehrfache von anderen Variablen werden lediglich addiert oder subtrahiert. Viele Benutzer werfen nur eine Menge von unabhängigen Variablen in das Modell, ohne darüber nachzudenken, sorgfältig über dieses Problem, als ob ihre Software automatisch herausfinden, genau, wie sie verwandt sind. Selbst bei der automatischen Modellauswahl (z. B. schrittweise Regression) benötigen Sie ein gutes Verständnis Ihrer eigenen Daten und eine Leithand in der Analyse. Sie arbeiten nur mit den Variablen, die sie erhalten, in der Form, die sie gegeben werden, und dann sehen sie nur für lineare, additive Muster unter ihnen im Kontext von einander. Ein Regressionsmodell geht nicht nur davon aus, dass Y ein Quotom-Funktionsquot der Xs ist. Es geht davon aus, dass es eine ganz besondere Art der Funktion der Xs ist. Eine gängige Praxis ist es, unabhängige Variablen, deren Vorhersageeffekte logisch nicht additiv sein können, sagen, einige, die Summen und andere, die Preise oder Prozentsätze sind. Manchmal kann dies durch lokale Argumente erster Ordnung-Approximation rationalisiert werden, und manchmal kann es nicht. Sie müssen die relevanten Daten sammeln, verstehen, was sie misst, ggf. aufräumen, eine beschreibende Analyse durchführen, um nach Mustern zu suchen, bevor sie Modelle montieren und danach die Diagnosetests von Modellannahmen untersuchen, vor allem Statistiken und Diagramme der Fehler. Sie sollten auch versuchen, die entsprechende ökonomische oder physikalische Argumentation anzuwenden, um zu bestimmen, ob eine additive Vorhersagegleichung sinnvoll ist. Auch hier ist es möglich (aber nicht garantiert), dass Transformationen von Variablen oder die Einbeziehung von Interaktionstermen ihre Effekte in eine additive Form trennen können, wenn sie nicht so eine Form haben, aber das erfordert einen Gedanken und Anstrengung dein Teil. (Zurück zum Seitenanfang.) Und warum sollten wir davon ausgehen, dass die Fehler linearer Modelle unabhängig und identisch normal verteilt sind? 1. Diese Annahme wird oft durch den Appell an den Central-Limit-Theorem der Statistik gerechtfertigt, wonach die Summe oder der Mittelwert einer hinreichend großen Anzahl von unabhängigen Zufallsvariablen - unabhängig von ihrer individuellen Verteilung - sich einer Normalverteilung annähert. Viele Daten in den Bereichen Wirtschaft und Ingenieurwesen und Naturwissenschaften werden durch Addition oder Mittelung numerischer Messungen an vielen verschiedenen Personen oder Produkten oder Orten oder Zeitintervallen gewonnen. Soweit die Aktivitäten, die die Messungen erzeugen, etwas zufällig und etwas unabhängig voneinander auftreten, können wir erwarten, dass die Schwankungen der Summen oder Durchschnittswerte etwas normal verteilt sind. 2. Es ist (wieder) mathematisch günstig: es bedeutet, dass die optimalen Koeffizientenschätzungen für ein lineares Modell diejenigen sind, die den mittleren quadratischen Fehler minimieren (die leicht berechnet werden können) und rechtfertigt die Verwendung eines Wirtes statistischer Tests auf der Basis von Normale Verteilungsfamilie. (Diese Familie schließt die t-Verteilung, die F-Verteilung und die Chi-Quadrat-Verteilung ein.) 3. Selbst wenn der Quottruequot-Fehlerprozess nicht normal in Bezug auf die ursprünglichen Einheiten der Daten ist, kann es möglich sein, die Daten so zu transformieren Dass Ihre Modellvorhersagefehler annähernd normal sind. Aber auch hier ist Vorsicht geboten. Auch wenn die ungeklärten Variationen der abhängigen Variablen annähernd normal verteilt sind, ist nicht garantiert, dass sie auch für alle Werte der unabhängigen Variablen identisch normal verteilt sind. Vielleicht sind die unerklärten Variationen unter einigen Bedingungen größer als andere, eine Bedingung als quotheteroscedasticityquot bekannt. Zum Beispiel, wenn die abhängige Variable besteht aus täglichen oder monatlichen Gesamtverkäufe, gibt es wahrscheinlich signifikante Wochentage Muster oder saisonale Muster. In solchen Fällen wird die Varianz der Gesamtsumme an Tagen oder in Jahreszeiten größerer Geschäftstätigkeit größer sein - eine weitere Konsequenz des zentralen Grenzwertsatzes. (Variable Transformationen wie Protokollierung und / oder saisonale Anpassung werden häufig verwendet, um mit diesem Problem umzugehen.) Es ist auch nicht garantiert, dass die zufälligen Variationen statistisch unabhängig sein werden. Dies ist eine besonders wichtige Frage, wenn die Daten aus Zeitreihen bestehen. Wenn das Modell nicht richtig spezifiziert ist, ist es möglich, dass aufeinanderfolgende Fehler (oder Fehler, die durch eine andere Anzahl von Perioden getrennt sind) eine systematische Tendenz haben, dasselbe Vorzeichen zu haben, oder eine systematische Tendenz, entgegengesetzte Vorzeichen zu haben, ein Phänomen, das als Quotautokorrelationsquot bekannt ist Quadratische Korrelation. Ein sehr wichtiger Spezialfall ist der Aktienkurs. In denen sich die prozentualen Veränderungen und nicht die absoluten Veränderungen normal verteilen. Dies bedeutet, dass die Aktienkursbewegungen über moderate bis große Zeitskalen lognormal verteilt und nicht normal verteilt sind. Eine Log-Transformation wird typischerweise auf historische Aktienkursdaten angewendet, wenn das Wachstum und die Volatilität untersucht werden. Vorsicht: Obwohl einfache Regressionsmodelle häufig an historische Aktienrenditen angepasst sind, um quotbetasquot zu schätzen, die Indikatoren für das relative Risiko im Rahmen eines diversifizierten Portfolios sind, empfehle ich nicht, dass Sie Regressionen verwenden, um zu versuchen, zukünftige Aktienrenditen vorherzusagen. Sehen Sie stattdessen die geometrische Zufallsauswahlseite. Sie könnten immer noch denken, dass Variationen in den Werten von Aktienbeständen in der Regel aufgrund des zentralen Limit-Theorems normal verteilt sind, aber das zentrale Limit-Theorem ist eigentlich eher langsam, um auf der lognormalen Verteilung zu beißen, weil es so asymmetrisch lang - Tailed Eine Summe von 10 oder 20 unabhängig und identisch lognormal verteilten Variablen hat eine Verteilung, die noch nahe an lognormal ist. Wenn Sie es nicht glauben, versuchen Sie es durch Monte-Carlo-Simulation: you8217ll werden überrascht sein. (I). Da die Annahmen linearer Regression (lineare, additive Beziehungen zu iid normal verteilten Fehlern) so stark sind, ist es sehr wichtig, ihre Gültigkeit bei der Anpassung von Modellen zu prüfen, ein Thema, das detaillierter auf dem Testmodell - Annahmen Seite. Und seien Sie aufmerksam auf die Möglichkeit, dass Sie möglicherweise mehr oder bessere Daten benötigen, um Ihre Ziele zu erreichen. Sie können etwas aus dem Nichts bekommen. Allzu oft sehen naiumlve Nutzer der Regressionsanalyse sie als Blackbox, die jede gegebene Variable automatisch aus jeder anderen Variablen, die in sie eingegeben werden, vorhersagen kann, wenn tatsächlich ein Regressionsmodell eine sehr spezielle und sehr transparente Art von Vorhersagebox ist. Seine Ausgabe enthält nicht mehr Informationen, als von seinen Eingaben zur Verfügung gestellt, und seine innere Mechanismus muss mit der Realität in jeder Situation, wo es angewendet werden verglichen werden. (Rückkehr nach oben.) Korrelation und einfache Regressionsformeln Eine Variable ist definitionsgemäß eine Größe, die von einer Messung zu einer anderen variieren kann, in Situationen, in denen verschiedene Proben einer Population entnommen werden oder Beobachtungen zu verschiedenen Zeitpunkten durchgeführt werden. Bei der Anpassung statistischer Modelle, in denen einige Variablen verwendet werden, um andere vorherzusagen, was wir hoffen zu finden ist, dass die verschiedenen Variablen nicht unabhängig (im statistischen Sinne) variieren, sondern dass sie dazu neigen, zusammen zu variieren. Insbesondere bei der Anpassung von linearen Modellen hoffen wir, dass eine Variable (z. B. Y) als Geradenfunktion einer anderen Variablen (z. B. X) variiert. Mit anderen Worten, wenn alle anderen möglicherweise relevanten Variablen fest gehalten werden könnten, würden wir hoffen, den Graphen von Y gegen X als eine gerade Linie (abgesehen von den unvermeidlichen zufälligen Fehlern oder quotnoisequot) zu finden. Ein Maß für den absoluten Betrag der Variabilität in einer Variablen ist (natürlich) seine Varianz. Die als ihre mittlere quadratische Abweichung von ihrem eigenen Mittelwert definiert ist. Gleichermaßen können wir die Variabilität in Bezug auf die Standardabweichung messen. Die als Quadratwurzel der Varianz definiert ist. Die Standardabweichung hat den Vorteil, dass sie in den gleichen Einheiten wie die ursprünglichen Variablen statt quadrierten Einheiten gemessen wird. Unsere Aufgabe bei der Vorhersage von Y könnte als diejenige beschrieben werden, einige oder alle ihrer Varianz zu erklären - d. h. Warum . Oder unter welchen Bedingungen, weicht sie von ihrem Mittel ab Warum ist sie nicht konstant Das heißt, wir möchten das naive Vorhersagemodell verbessern können: 374 t CONSTANT, wobei der beste Wert für die Konstante vermutlich der historische Mittelwert ist Von Y. Genauer gesagt hoffen wir, ein Modell zu finden, dessen Vorhersagefehler kleiner sind, in einem mittleren quadratischen Sinne als die Abweichungen der ursprünglichen Variablen von ihrem Mittelwert. Bei der Verwendung von linearen Modellen zur Vorhersage ist es sehr bequem, dass die einzige Statistik von Interesse (zumindest zum Zwecke der Schätzung von Koeffizienten zur Minimierung des quadratischen Fehlers) der Mittelwert und die Varianz jeder Variablen und der Korrelationskoeffizient zwischen jedem Paar von Variablen sind. Der Koeffizient der Korrelation zwischen X und Y wird üblicherweise mit r XY bezeichnet. Und sie mißt die Stärke der linearen Beziehung zwischen ihnen auf einer relativen (dh unitlosen) Skala von -1 bis 1. Das heißt, sie mißt das Ausmaß, in dem ein lineares Modell verwendet werden kann, um die Abweichung einer Variablen von ihrem Mittel vorherzusagen Bei der Kenntnis der anderen Abweichung vom Mittelwert zum gleichen Zeitpunkt. Der Korrelationskoeffizient lässt sich am einfachsten berechnen, wenn wir zuerst die Variablen standardisieren, was bedeutet, dass sie in Einheiten von Standardabweichungen vom Mittelwert unter Verwendung der Populationsstandardabweichung statt der Standardabweichung, dh unter Verwendung der Statistik, deren Formel berechnet wird, umgewandelt werden Anstelle von n-1 im Nenner n, wobei n die Stichprobengröße ist. Die standardisierte Version von X wird hier mit X bezeichnet. Und sein Wert in Periode t ist in Excel-Notation definiert als: wobei STDEV. P die Excel-Funktion für die Populationsstandardabweichung ist. (Hier und anderswo werde ich Excel-Funktionen anstelle von konventionellen mathematischen Symbolen in einigen der Formeln verwenden, um zu veranschaulichen, wie die Berechnungen auf einer Kalkulationstabelle durchgeführt werden würden). Nehmen wir beispielsweise an, dass AVERAGE (X) 20 und STDEV. P (X ) 5. Wenn X t 25, dann X t 1, wenn X t 10. Dann X t -2 und so weiter. Y bezeichnet den ähnlich normierten Wert von Y. Nun ist der Korrelationskoeffizient gleich dem Durchschnittsprodukt der standardisierten Werte der beiden Variablen innerhalb der gegebenen Probe von n Beobachtungen: So sind beispielsweise X und Y in Spalten gespeichert Auf einer Tabellenkalkulation können Sie die Funktionen AVERAGE und STDEV. P verwenden, um ihre Durchschnittswerte und Populationsstandardabweichungen zu berechnen, dann können Sie zwei neue Spalten erstellen, in denen die Werte von X und Y in jeder Zeile gemäß der obigen Formel berechnet werden. Dann erstellen Sie eine dritte neue Spalte, in der X mit Y in jeder Zeile multipliziert wird. Der Mittelwert der Werte in der letzten Spalte ist die Korrelation zwischen X und Y. Natürlich können Sie in Excel die Formel CORREL (X, Y) verwenden, um einen Korrelationskoeffizienten zu berechnen, wobei X und Y die Zellbereiche von Die Daten für die Variablen. (Anmerkung: In einigen Situationen könnte es von Interesse sein, die Daten in Bezug auf die Standardabweichung der Stichprobe zu standardisieren, was STDEV. S in Excel ist, aber die Populationsstatistik ist die richtige, die in der obigen Formel zu verwenden ist.) (Zurück nach oben Der Seite). Wenn die beiden Variablen dazu neigen, zur gleichen Zeit auf denselben Seiten ihrer jeweiligen Mittel zu variieren, dann ist das Durchschnittsprodukt ihrer Abweichungen (und damit die Korrelation zwischen ihnen) positiv. Da das Produkt aus zwei Zahlen mit demselben Vorzeichen positiv ist. Umgekehrt, wenn sie dazu neigen, auf gegenüberliegenden Seiten ihrer jeweiligen Mittel zur gleichen Zeit zu variieren, wird ihre Korrelation negativ sein. Wenn sie unabhängig voneinander in Bezug auf ihre Mittel variieren, dh wenn man gleichermaßen wahrscheinlich ist, über oder unter ihrem Mittelwert zu sein, unabhängig davon, was der andere tut, dann ist die Korrelation Null. Wenn Y eine exakte lineare Funktion von X ist, dann ist entweder Y t X t für alle t oder sonst Y t - X t für alle t. Wobei sich die Formel für die Korrelation auf 1 oder -1 verringert. Der Korrelationskoeffizient kann gesagt werden, um die Stärke der linearen Beziehung zwischen Y und X aus dem folgenden Grund zu messen. Die lineare Gleichung zur Vorhersage von Y aus X, die den mittleren quadratischen Fehler minimiert, ist einfach: Wenn X eine Standardabweichung oberhalb seines eigenen Mittelwerts ist, dann sollten wir vorhersagen, daß Y r XY Standardabweichungen über seinem eigenen Mittelwert, wenn X, sein wird


No comments:

Post a Comment