Cook-Abstand
In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.
Definition
Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:
- ,
wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt und der Vektor der Regressionskoeffizienten ist (hierbei ist die Anzahl der zu schätzenden unbekannten Parameter und die Anzahl der erklärenden Variablen), und die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:
- ,
wobei die Prädiktionsmatrix darstellt. Das te Diagonalelement von ist gegeben durch , wobei die -te Zeile der Datenmatrix ist.[1] Die Werte werden auch als „Hebelwerte“ der ten Beobachtung bezeichnet. Um den Einfluss eines Punktes zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf und . Der Schätzer von , der dadurch gewonnen wird, dass die te Beobachtung ausgelassen wird, ist gegeben durch .[2] Man kann mit mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]
- ,
wobei die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß ist proportional zum gewöhnlichen euklidischen Abstand zwischen und . Daher ist groß, wenn die Beobachtung eine substantiellen Einfluss auf sowohl , als auch hat.
Eine numerisch einfachere Darstellung von ist gegeben durch:[5]
- ,
wobei die studentisierten Residuen darstellen.
Erkennen von stark einflussreichen Beobachtungen
Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel vorgeschlagen.[6] Andere Autoren haben vorgeschlagen, wobei die Anzahl der Beobachtungen ist.[7]
Siehe auch
Literatur
- Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008
Einzelnachweise
- ↑ Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
- ↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
- ↑ R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
- ↑ Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.