Peter Bruce

Praktische Statistik für Data Scientists


Скачать книгу

wurden.

       Der Erwartungswert entspricht der Summe der Produkte der einzelnen Werte mit ihrer Eintrittswahrscheinlichkeit (eine mit den Eintrittswahrscheinlichkeiten der Werte gewichtete Summe) und wird oft verwendet, um die Niveaus von Faktorvariablen zusammenzufassen.

       Weiterführende Literatur

      Ein Statistikkurs ist nicht wirklich vollständig, wenn er nicht auch eine Lektion über irreführende Diagramme (https://oreil.ly/rDMuT) enthält, die sich oftmals auf Balken- und Kreisdiagramme bezieht.

       Korrelation

      Bei der explorativen Datenanalyse wird in vielen Projekten (sei es in der Data Science oder in der Forschung) zunächst die Korrelation zwischen den Prädiktoren selbst sowie zwischen den Prädiktoren und einer Zielvariablen untersucht. Man spricht davon, dass die Variablen X und Y (jeweils als Messdaten erfasst) positiv korreliert sind, wenn hohe Werte von X mit hohen Werten von Y und niedrige Werte von X mit niedrigen Werten von Y einhergehen. Wenn hohe Werte von X mit niedrigen Werten von Y zusammenfallen und umgekehrt, sind die Variablen negativ korreliert.

       Schlüsselbegriffe zur Korrelation

       Korrelationskoeffizient

      Eine Metrik, die angibt, wie eng numerische Variablen miteinander in Beziehung stehen (reicht von –1 bis +1).

       Korrelationsmatrix

      Eine Tabelle, in der die Variablen sowohl in den Zeilen als auch in den Spalten abgebildet sind und die Zellwerte die Korrelationen zwischen den Variablen darstellen.

       Streudiagramm

      Eine Visualisierung, bei der die x-Achse den Wert einer Variablen und die y-Achse den Wert einer anderen angibt (engl. Scatterplot).

      Betrachten Sie diese beiden Variablen, die insofern perfekt miteinander korreliert sind, dass beide – von niedrigen Werten ausgehend – kontinuierlich ansteigen:

       v1: {1, 2, 3}

       v2: {4, 5, 6}

      Das Skalarprodukt beider Vektoren, auch inneres Produkt oder Punktprodukt genannt (engl. Dot Product bzw. Vector Sum of Products), ergibt 1 · 4 + 2 · 5 + 3 · 6 = 32. Versuchen Sie nun, einen von beiden Vektoren neu anzuordnen und das Skalarprodukt erneut zu berechnen – das Skalarprodukt wird niemals höher als 32 sein. Das Skalarprodukt könnte also als ein Maß verwendet werden, d.h., die ermittelte Summe von 32 könnte mit vielen zufälligen anderen Kombinationen verglichen werden (tatsächlich bezieht sich diese Idee auf einen Schätzer, der auf einer Resampling-Verteilung basiert; siehe »Permutationstest« auf Seite 101). Die mit diesem Maß erzeugten Werte sind jedoch nicht so aussagekräftig, außer in Bezug auf die Resampling-Verteilung (d.h., aus den gegebenen Daten werden wiederholt Stichproben gezogen).

      Von größerem Nutzen ist die standardisierte Variante: der Korrelationskoeffizient, der einen Schätzer der Korrelation zwischen zwei Variablen darstellt, der immer auf derselben Skala liegt. Um den pearsonschen Korrelationskoeffizienten zu berechnen, multiplizieren wir jeweils die Abweichungen vom Mittelwert der Elemente von Variable 1 mit denen von Variable 2, bilden die Summe dieser Produkte und dividieren das Ergebnis durch das Produkt der Standardabweichungen:

image

      Beachten Sie, dass wir durch n – 1 statt n dividieren (siehe »Die Anzahl der Freiheitsgrade und die Frage, ob n oder n – 1?« auf Seite 16 für weitere Erläuterungen). Der Korrelationskoeffizient liegt immer zwischen +1 (perfekte positive Korrelation) und –1 (perfekte negative Korrelation); 0 bedeutet, dass die Variablen unkorreliert sind.

      Variablen können in einem nicht linearen Zusammenhang zueinander stehen. In diesem Fall ist der Korrelationskoeffizient möglicherweise keine brauchbare Metrik. Ein Beispiel hierfür ist der Zusammenhang zwischen den Steuersätzen und den erhobenen Steuereinnahmen: Wenn die Steuersätze – ausgehend von null – steigen, steigen auch die erhobenen Einnahmen. Sobald die Steuersätze jedoch ein gewisses hohes Niveau erreichen und sich einem Satz von 100% nähern, nimmt die Steuerumgehung zu, und die Steuereinnahmen sinken sogar.

      Tabelle 1-7, die als Korrelationsmatrix bezeichnet wird, zeigt die Korrelation zwischen den Tagesrenditen von Aktien der Telekommunikationsbranche von Juli 2012 bis Juni 2015. Aus der Tabelle können Sie ersehen, dass Verizon (VZ) und ATT (T) am stärksten korreliert sind. Level 3 (LVLT), bei dem es sich um ein Infrastrukturunternehmen handelt, weist die geringste Korrelation zu den anderen auf. Beachten Sie, dass sich auf der Diagonalen nur Einsen befinden (die Korrelation einer Aktie mit sich selbst ist 1) und dass die Informationen oberhalb und unterhalb der Diagonalen redundant sind.

image

      Korrelationstabellen wie Tabelle 1-7 werden üblicherweise visualisiert, um die Beziehung zwischen mehreren Variablen anschaulicher darzustellen. Abbildung 1-6 zeigt die Korrelation der Tagesrenditen der wichtigsten börsengehandelten Indexfonds (ETFs). In R können wir dies leicht mit dem Paket corrplot umsetzen:

      etfs <- sp500_px[row.names(sp500_px) > '2012-07-01',

      sp500_sym[sp500_sym$sector == 'etf', 'symbol']]

      library(corrplot)

      corrplot(cor(etfs), method='ellipse')

      Es ist möglich, das gleiche Diagramm in Python zu erstellen. Es gibt jedoch leider keine Implementierung in einem der gängigen Pakete. Die meisten unterstützen allerdings die Visualisierung von Korrelationsmatrizen mithilfe von Heatmaps. Der folgende Code zeigt Ihnen die Umsetzung mithilfe des Moduls seaborn.heatmap. Im GitHub-Repository des Buchs stellen wir Ihnen zusätzlich eine Python-Implementierung der umfassenderen Visualisierung zur Verfügung:

      etfs = sp500_px.loc[sp500_px.index > '2012-07-01',

      sp500_sym[sp500_sym['sector'] == 'etf']['symbol']]

      sns.heatmap(etfs.corr(), vmin=-1, vmax=1,

      cmap=sns.diverging_palette(20, 220, as_cmap=True))

      Die ETFs für den S&P 500 (SPY) und den Dow-Jones-Index (DIA) weisen eine hohe Korrelation auf. In ähnlichem Maße sind der QQQ und der XLK, die hauptsächlich aus Technologieunternehmen bestehen, positiv korreliert. Defensive ETFs, wie z.B. diejenigen, die den Goldpreis (GLD), den Ölpreis (USO) oder die Marktvolatilität (VXX) abbilden, neigen dazu, nur schwach oder negativ mit den anderen ETFs korreliert zu sein. Die Ausrichtung der Ellipsen zeigt an, ob zwei Variablen positiv (Ellipse zeigt nach rechts oben) oder negativ korreliert sind (Ellipse zeigt nach links oben). Die Schattierung und die Breite der Ellipsen zeigen die Stärke der Korrelation an: Dünnere und dunklere Ellipsen bilden einen stärkeren Zusammenhang ab.