Vorzeichentest
Der Vorzeichentest oder Zeichentest[1][2] ist ein nichtparametrischer statistischer Test. Der Vorzeichentest ist ein Binomialtest.[3][4] Mit seiner Hilfe lassen sich Verteilungshypothesen in Ein- und Zweistichprobenproblemen testen. Der Vorzeichentest ist auch dann einsetzbar, wenn nur ordinales Datenniveau vorliegt.[2][5]
Einstichprobenproblem
Test auf Median
Mit Hilfe des Vorzeichentests können Hypothesen über den Median einer Verteilung geprüft werden.[1]
Test auf Symmetrie
Der Vorzeichentest ist auch als Test auf Symmetrie einer Verteilung nutzbar: Ist das wahre arithmetische Mittel der Grundgesamtheit bekannt oder wird ein Schätzer als wahrer Wert angenommen, kann geprüft werden, ob das arithmetische Mittel mit dem Median zusammenfällt, d. h. ob 50 % der möglichen Werte rechts und 50 % links vom arithmetischen Mittel liegen, und somit, ob die Verteilung symmetrisch ist.[6]
Test auf Mittelwert
Nimmt man wiederum Symmetrie der Verteilung an, dann ist der Populationsmittelwert gleich dem Populationsmedian, und der Vorzeichentest bietet die Möglichkeit, Hypothesen über das arithmetische Mittel der Grundgesamtheit zu prüfen.[7]
Annahmen
- Die Beobachtungen sind unabhängig voneinander.[1][2]
- Die zugrundeliegende Zufallsvariable ist in der Grundgesamtheit stetig verteilt.[1][2]
- Da Größenvergleiche zwischen Beobachtungen und hypothetischem Median durchgeführt werden, muss das untersuchte Merkmal mindestens auf ordinalem Niveau erhoben worden sein.[2][5][8]
Hypothesen
Wird zweiseitig getestet, soll die Hypothese geprüft werden, dass der Median in der Grundgesamtheit gleich einem bestimmten hypothetischen Wert ist. Die Wahrscheinlichkeit, dass ein Wert größer dem hypothetischen Parameter ist, sollte dann 0,5 betragen, wenn er tatsächlich dem Median entspricht. Wird einseitig getestet, wird geprüft, ob der Median größer bzw. kleiner einem hypothetischen Wert ist, d. h. ob die Wahrscheinlichkeit, dass ein Wert größer dem hypothetischen Parameter ist, größer bzw. kleiner 0,5 ist.
Einseitig | Zweiseitig | ||
---|---|---|---|
Nullhypothese | |||
Alternativhypothese | |||
Nullhypothese | |||
Alternativhypothese |
Weitere äquivalente Formulierungen der Hypothesen sind möglich. Das Testprinzip ist unter Anpassung der Hypothesen und der Parameter der Verteilung der Teststatistik auf beliebige Quantile erweiterbar. Beim Test auf ein anderes Quantil als den Median ist die hypothetische Wahrscheinlichkeit (hier 1/2) entsprechend anzupassen (siehe Binomialtest).
Vorgehen
Die Stichprobenwerte, die größer als der hypothetische Median sind, bekommen ein „+“ zugeordnet; Werte, die kleiner sind, ein „-“. Das heißt, die Stichprobenvariable wird mediandichotomisiert. Die Anzahl der positiven Vorzeichen wird gezählt und dient als Teststatistik.
Zweistichprobenproblem
Der Vorzeichentest findet Anwendung, wenn zwei verbundene Stichproben untersucht werden sollen. Verbundene Stichproben liegen vor, wenn die Beobachtungen beider Gruppen jeweils paarweise voneinander abhängen, zum Beispiel wenn der Gesundheitszustand derselben Person vor und nach einer Behandlung untersucht wird. Aus dem Größenvergleich zwischen den Werten eines jeden Paares werden entsprechende Vorzeichen („+“ oder „-“) erzeugt.
Der Vorzeichentest testet auf Gleichheit der Verteilungsfunktion zweier Zufallsvariablen aus verbundenen stetig verteilten Gesamtheiten. Unterscheiden sich die Mediane der Stichproben signifikant, ist die Verteilung in der Grundgesamtheit unterschiedlich.
Annahmen
- Die Beobachtungspaare dürfen nicht voneinander abhängen, d. h. das Wertepaar muss unabhängig vom Wertepaar sein.[1][2]
- Die zugrundeliegende Zufallsvariable sind in der Grundgesamtheit stetig verteilt.[1][2]
- Da paarweise Größenvergleiche zwischen den Beobachtungen durchgeführt werden, muss das untersuchte Merkmal mindestens auf ordinalem Niveau erhoben worden sein.[2][5][8]
Hypothesen
Besitzen beide Grundgesamtheiten den gleichen Median, gilt P(X11>X12)=P(X11<X12). Folgende Hypothesen können mit dem Vorzeichentest geprüft werden:
Einseitig | Zweiseitig | ||
---|---|---|---|
Nullhypothese | |||
Alternativhypothese |
Vorgehen
Die Wertepaare der Stichproben, bei denen gilt, bekommen ein „+“ zugeordnet; Wertepaare, für die gilt, ein „-“. Die Anzahl der positiven Vorzeichen wird gezählt und dient als Teststatistik.
Teststatistik
Exakte Verteilung
Die Teststatistik entspricht der Anzahl der positiven Vergleiche (Differenzen der Werte bzw. Ränge):
mit
Für das Einstichprobenproblem sind die Werte der zweiten Stichprobe durch den hypothetischen Median zu ersetzen. Bei Gültigkeit der Nullhypothese ist die Summe der positiven Differenzen binomialverteilt mit , da der Median dem 50 %-Quantil entspricht. n' bezeichnet den nach Behandlung von Ties (Nulldifferenzen, Rangbindungen) verbleibenden Stichprobenumfang. Bei Gültigkeit der Nullhypothese ist die Verteilung der Prüfgröße symmetrisch.
Approximation durch die Normalverteilung
Mit nähert sich die Binomialverteilung einer Normalverteilung mit . Eine Faustregel für eine brauchbare Approximation lautet .[3] Bei Gültigkeit der Nullhypothese ist
Wenn also bzw. gilt, ist die z-standardisierte Größe
näherungsweise standardnormalverteilt und die kritischen Werte zur Testentscheidung können aus der Tabelle der Standardnormalverteilung abgelesen werden.
Bindungen (Nulldifferenzen)
Da stetige Zufallsvariablen in der Regel nur diskret erhoben werden, können Bindungen auftreten. Sind im Zweistichprobenproblem die Werte von Beobachtungen von der ersten zur zweiten Stichprobe unverändert oder sind im Einstichprobenproblem einige Werte gleich dem Median, ergeben sich Nulldifferenzen bzw. Bindungen (Ties). Ein Binomialtest kann jedoch nur zwei Kategorien (hier + und -) behandeln. Deshalb stellt sich die Frage, wie Rangbindungen behandelt werden können. Mögliche Methoden sind:
- Beobachtungen mit Rangbindungen werden eliminiert, d. h. der Stichprobenumfang wird reduziert.[9][10]
- Die Beobachtungen werden zu gleichen Teilen den Gruppen zugeordnet. Bei ungerader Anzahl von Bindungen wird ein Beobachtungspaar eliminiert.[9][10]
- Die Beobachtungen werden jeweils mit einer Wahrscheinlichkeit von 0,5 einer der beiden Gruppen (+ oder -) zugeordnet.[9][10]
- Nulldifferenzen erhalten das seltenere Vorzeichen (sehr konservatives Vorgehen).[9]
Beispiel für ein Einstichprobenproblem: Median-Test
Bei Sprent und Smeeton[11] findet man folgendes Beispiel aus der Biostatistik: In einer klinischen Studie wird die Überlebenszeit (in Wochen) von 10 Probanden mit Non-Hodgkin-Lymphom erhoben. Die Überlebenszeiten der Probanden waren wie folgt:
- 49, 58, 75, 110, 112, 132, 151, 276, 281, 362*
Der Stern * markiert, dass der betreffende Proband den Studienzeitraum überlebt hat. Es handelt sich um ein rechtszensiertes Datum. Es soll nun festgestellt werden, ob der Median der Überlebenszeit größer oder kleiner als Wochen ist. Die Nullhypothese besagt, dass die mediane Überlebenszeit 200 Wochen beträgt. Die Alternativhypothese besagt, dass die mediane Überlebenszeit nicht 200 Wochen beträgt. Dies ist ein zweiseitiger Test: Der alternative Median kann größer oder kleiner als 200 Wochen sein.
Wenn die Nullhypothese wahr ist, also die mediane Überlebenszeit 200 Wochen beträgt, dann sollte in einer Zufallsstichprobe ungefähr die Hälfte der Probanden weniger als 200 Wochen und die Hälfte mehr als 200 Wochen überleben. Beobachtungen unter 200 wird ein Minus (−) zugeordnet; Beobachtungen über 200 ein Plus (+). Für die Überlebenszeiten der Probanden gibt es 7 Beobachtungen unter 200 Wochen (–) und 3 Beobachtungen über 200 Wochen (+). Da jede einzelne Beobachtung unter der Nullhypothese mit gleicher Wahrscheinlichkeit über oder unter dem Median der Grundgesamtheit liegt, weist die Anzahl der Pluswerte eine Binomialverteilung mit und auf. Wir betrachten nun die Wahrscheinlichkeit, ein mindestens so extremes Ereignis wie das beobachtete Ereignis zu erhalten, d. h. berechnen den p-Wert:
Die erwartete Anzahl von Pluszeichen ist 5, wenn die Nullhypothese wahr ist. Das Beobachten von 3 oder weniger bzw. 7 oder mehr Pluswerten unterscheidet sich nicht signifikant von 5. Die Nullhypothese wird nicht zurückgewiesen. Aufgrund der extrem kleinen Stichprobengröße hat diese Stichprobe eine zu geringe Teststärke, um einen Unterschied zu erkennen.
Beispiel für ein Zweistichprobenproblem
Eine Schulbehörde möchte untersuchen, ob sich die Schulleistungen von Schülern durch eine neue Lernmethode (zum Beispiel E-Learning) verbessert haben. Die Schulleistungen einer Zufallsstichprobe von 43 Schülern werden anhand eines geeigneten Tests gemessen. Danach werden die Schüler mit der neuen Lernmethode konfrontiert. Nach der Konfrontation werden die Schulleistungen an denselben Schülern erneut erhoben. Die Schulbehörde führt mit den erhaltenen Beobachtungen einen rechtsseitigen Vorzeichentest durch:
Zur Auswertung werden die Häufigkeiten der Vorzeichen (+,-,=) der Differenzen bestimmt:
Vorzeichen | Summe | |||
---|---|---|---|---|
Anzahl | 25 | 11 | 7 | 43 |
Bei 25 Schülern haben sich die Leistungen verbessert. Bei elf Schülern wurden sie schlechter und bei sieben blieben sie gleich. Können wir aus diesem Ergebnis schließen, dass die neue Lernmethode in der Grundgesamtheit einen positiven Effekt besitzt?
Bindungen
Der Stichprobenumfang wird um die Anzahl der Bindungen auf reduziert.
Binomialtest
Bei Verwendung der Binomialverteilung als Testverteilung ergibt sich auf einem (maximalen) Signifikanzniveau von 0,05 ein kritischer Wert von 23 (0,95-Quantil der Binomialverteilung, p-Wert = 0,01441). Da 25 > 23, ist die Nullhypothese (keine Verbesserung) abzulehnen. Die Schulbehörden können also nach einem solchen Ergebnis schließen, dass E-Learning einen positiven Einfluss auf die Schulleistungen hat.
Normalverteilungsapproximation
Der kritische Wert der Standardnormalverteilung für α = 0,05 ist 1,6449 (0,95-Quantil der Standardnormalverteilung).
Die Näherung der Verteilung der Teststatistik durch die Normalverteilung ergibt
mit einem zugehörigen p-Wert, also die Wahrscheinlichkeit, dass der erhaltene Prüfwert oder ein größerer unter der Nullhypothese auftritt, von . Die Schulbehörden können auch hier auf einem Signifikanzniveau von 5 % schließen, dass E-Learning einen positiven Einfluss auf die Schulleistungen hat.
Einzelnachweise
- ↑ a b c d e f Bernd Rönz, Hans G. Strohe: Lexikon Statistik. Gabler Wirtschaft, 1994, S. 412.
- ↑ a b c d e f g h J. Hartung: Statistik: Lehr- und Handbuch der angewandten Statistik. 8. Auflage. Oldenbourg, 1991, S. 242.
- ↑ a b Horst Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 530.
- ↑ Werner Voß: Taschenbuch der Statistik. 1. Auflage. Fachbuchverlag Leipzig, 2000, S. 463.
- ↑ a b c Werner Voß: Taschenbuch der Statistik. 1. Auflage. Fachbuchverlag Leipzig, 2000, S. 470.
- ↑ J. L. Gastwirth: On the Sign Test for Symmetry. Vol. 66, Nr. 336. Journal of the American Statistical Association, 1971, S. 821–823.
- ↑ Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 258.
- ↑ a b Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 256.
- ↑ a b c d Jürgen Bortz, Gustav A. Lienert, Klaus Boehnke: Verteilungsfreie Methoden in der Biostatistik. 3. Auflage. Springer, 2008, S. 257.
- ↑ a b c K. Bosch: Statistik-Taschenbuch. Oldenbourg, 1992, S. 675–676.
- ↑ Peter Sprent, Nigel C. Smeeton: Applied Nonparametric Statistical Methods. Chapman & Hall/CRC, 2001, ISBN 978-1-58488-145-2, S. 6–7.