Multiples Testen

Multiples Testen bezeichnet Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden.

Überblick über Verfahren des multiplen Testens

Unter dem Begriff multiples Testen werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des Fehlers 1. Art, das ist die fälschliche Ablehnung einer Nullhypothese, auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein multipler Fehler 1. Art vor.

Multiple Tests mit vorgegebenem globalem Signifikanzniveau

Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls alle Nullhypothesen richtig sind, kontrolliert, d. h. durch ein vorgegebenes Signifikanzniveau nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau globales Signifikanzniveau. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

Multiple Tests mit vorgegebenem multiplem Signifikanzniveau

Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau , das dann multiples Signifikanzniveau heißt, nach oben beschränkt.

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.[1][2]

Grundbegriffe

Gegeben sei eine Familie von Test mit den Nullhypothesen für , wobei für gilt. Die entsprechenden Gegenhypothesen sind für . Eine simultane Durchführung der Tests wird multipler Test genannt.

Multipler Fehler 1. Art

Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt. Die übliche Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests ist der multiple Fehler 1. Art, der begangen wird, wenn bei mindestens einem Einzeltest eine Nullhypothese fälschlich abgelehnt wird.

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ multipler Fehler 1. Art.[3]

Multiple Fehlerwahrscheinlichkeit 1. Art

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, multiple Fehlerwahrscheinlichkeit 1. Art (engl.: family-wise error rate, FWER)[4] oder versuchsbezogene Irrtumswahrscheinlichkeit[5] (engl.: experimentwise error rate).

Multipler Test zum lokalen Signifikanzniveau

Das einfachste Vorgehen beim multiplen Testen ist, jeden Einzeltest mit demselben vorgegebenen Signifikanzniveau durchzuführen, so dass bei jedem Einzeltest die Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt ist.

Definition: Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveau einhält, für den also

gilt, heißt multipler Test zum lokalen Signifikanzniveau .

Ein multipler Test zum lokalen Signifikanzniveau kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, da diese durch nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert. Für einen multiplen Test zum lokalen Signifikanzniveau sind die Wahrscheinlichkeiten nicht durch nach oben beschränkt. Es gilt[6] lediglich die Ungleichung

die aber für größere nicht zu einer praktikablen Beschränkung führt. Z. B. für wird für für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff Alphafehler-Kumulierung bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

Multiple Tests zu vorgegebenem globalem Signifikanzniveau

Test einer Durchschnittshypothese

Zu einer Familie von Nullhypothesen mit für sei

eine nicht-leere Teilmenge von . Dann heißt die Durchschnittshypothese

Globalhypothese und die einzelnen Nullhypothesen heißen in diesem Zusammenhang Elementarhypothesen.[7] Die Globalhypothese ist falsch, wenn mindestens eine der Hypothesen falsch ist. Ein Test der Globalhypothese kann daher durch simultane Tests der Elementarhypothesen erfolgen, wobei abgelehnt wird, falls mindestens eine der Hypothesen abgelehnt wird.

Definition: Ein simultaner Test der Nullhypothesen mit , der zu einem vorgegebenen Signifikanzniveau die Eigenschaft

hat, heißt multipler Test zum globalen Signifikanzniveau α.[8]

Konstruktionsverfahren

Einen multiplen Test zum globalen Signifikanzniveau erhält man regelmäßig nicht dadurch, dass man die einzelnen Tests jeweils zum Niveau durchführt, das es dann zur Alphafehler-Kumulierung kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der Bonferroni-Korrektur, die für die Durchführung des einzelnen Tests das Niveau vorschreibt, wodurch das globale Niveau garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die Šidák-Korrektur angewendet werden, die zu einer Verbesserung gegenüber der Bonferroni-Korrektur führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der allgemeinen linearen Hypothese im multiplen linearen Regressionsmodell, die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Die Reduktion des Test einer Familie von Hypothesen auf den Test der Globalhypothese mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.[9] Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung nur für alle gilt, man spricht daher auch von einer schwachen Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls

gilt. Für multiple Tests, bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“[10]

Multiple Tests zu vorgegebenem multiplem Signifikanzniveau

Gegeben sei eine Familie von Test mit den Nullhypothesen für , wobei für gilt.

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

Definition: Ein simultaner Test der Nullhypothesen mit der Eigenschaft

heißt multipler Test zum multiplen Signifikanzniveau α.[11]

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für , sondern für alle kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für möglich ist, da in alle Nullhypothesen falsch sind.

Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Eine allgemeine Methode, um einen multiplen Test zum multiplen Signifikanzniveau zu erhalten, ist das Bonferroni-Verfahren, das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.[12][13][14] Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die Šidák-Korrektur die adjustierten Signifikanzniveaus , um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.[15]

Das Holm-Verfahren oder Bonferroni-Holm-Verfahren ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.[16][17] Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit dem Simes-Hochberg-Verfahren.[18][19] eine Verbesserung des Bonferroni-Holm-Verfahrens.[20]

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.[21][22]

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau und einem Parameter bezeichne die zufällige Anzahl abgelehnter Nullhypothesen und die zufällige Anzahl fälschlich abgelehnter Nullhypothesen.[23] Die Zufallsvariablen und nehmen Werte in einer Teilmenge von an, wobei

gilt und daher aus auch folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann alle Werte in annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt .

Fehlerquote der Ablehnungen

Zu einem bestimmten bezeichnet die Zufallsvariable

die zufällige Fehlerquote der Ablehnungen (englisch: false discovery proportion, FDP).[24] Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen. Die Zufallsvariable hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge .

Erwartete Fehlerquote der Ablehnungen

Der Erwartungswert der Zufallsvariablen ,

ist die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR).[25]

Die erwartete Fehlerquote der Ablehnungen ist im Fall die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also

wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.[26] Die Anforderungen für eine Kontrolle von durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen

Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das Benjamini-Hochberg-Verfahren[27][28], das allerdings die stochastische Unabhängigkeit der p-Werte voraussetzt. Das Benjamini-Yekutieli-Verfahren[29] ist eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit, die den Fall der stochastischen Unabhängigkeit als Grenzfall enthält.[30]

Güteeigenschaften multipler Tests

Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art. Bei multiplen Tests ergeben sich spezielle Gütekriterien aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B. gilt.

Kohärenz

Die Kohärenz[31] eines multiplen Tests verlangt, dass im Fall aus der Ablehnung von auch die Ablehnung von folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“[31]. Beispielsweise darf bei einem simultanen Vergleich von drei Mittelwerten nicht die Nullhypothese abgelehnt werden, aber gleichzeitig die Nullhypothese nicht abgelehnt werden.

Konsonanz

Die Konsonanz[31] eines multiplen Test bedeutet im Fall einer Familie von drei Hypothesen mit und , dass dann, wenn abgelehnt wird, auch mindestens eine der stärkeren Hypothesen und abgelehnt wird. „Diese Eigenschaft ist für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich.“[31]

Beispielsweise sollte bei einem simultanen Vergleich von drei Mittelwerten nicht die Konstellation eintreten, dass die Nullhypothese abgelehnt wird, abgelehnt werden, aber gleichzeitig die drei Nullhypothesen , und nicht abgelehnt werden.

Abgeschlossenheit

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse Abgeschlossenheit hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen und die Menge nicht-leer ist, auch die Hypothese in der Hypothesenfamilie enthalten ist.[31]

Trennschärfe

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der Trennschärfe oder Macht eines Tests für multiple Tests.[32]

Verschiedene Arten multipler Testung

Es gibt verschiedene Arten der multiplen Testung, die sich in der Formulierung der Nullhypothese unterscheiden[33].

Manchmal ist ein multiples Testproblem mit einer abweichenden Notation für die Hypothesen zu finden[34], die beim Vergleich mit der obigen Notation leicht zu Irritationen führt. Es werden dann die Alternativhypothesen mit bezeichnet und mit wird die simultane Verneinung aller Alternativhypothesen bezeichnet. Beim so definierten multiplen Test ist richtig, wenn alle falsch sind, und ist falsch, wenn mindestens eine der Hypothesen richtig ist.

Literatur

Einzelnachweise und Anmerkungen

  1. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  2. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  3. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  4. Der englische Begriff family-wise error rate für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen einen zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.
  5. Ralf Bender, St. Lange, A. Ziegler: Multiples Testen. Artikel Nr. 12 der Statistik-Serie in DMW. In: Deutsche Medizinische Wochenschrift. Band 127, 2002, S. T4–T7 (thieme-connect.de [PDF]).
  6. bezeichne für jedes die Menge der wahren Nullhypothesen und bezeichne das Ereignis „ wird abgelehnt“. Dann ist das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
  7. Thorsten Dickhaus: Multiples Testen. 2022, S. 7.
  8. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 11.
  9. Thorsten Dickhaus: Multiples Testen. 2022, S. 11-12.
  10. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, S. 407.
  11. Thorsten Dickhaus: Multiples Testen. 2022, Def. 12.1, S. 12.
  12. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.1, S. 408.
  13. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 3.33.
  14. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.24, S. 13.
  15. Thorsten Dickhaus: Multiples Testen. 2022, Beispiel 1.25, S. 13.
  16. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.1.2, S. 418.
  17. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 337.
  18. R. J. Simes: An improved Bonferroni procedure for multiple test of significance. In: Biometrika. Band 73, 1986, S. 751–754.
  19. Yosef Hochberg: A sharper Bonferroni procedure for multiple test of significance. In: Biometrika. Band 75, 1988, S. 800–802.
  20. Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 339.
  21. Thorsten Dickhaus: Multiples Testen. 2022, Kap. 5.
  22. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Abschnitt 9.3.2, S. 434ff.
  23. Thorsten Dickhaus: Multiples Testen. 2022, S. 17.
  24. Thorsten Dickhaus: Multiples Testen. 2022, Def. 135, S. 19.
  25. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.
  26. Thorsten Dickhaus: Multiples Testen. 2022, Lemma 5.2, S. 61.
  27. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.1, S. 435.
  28. Yoav Benjamini, Yosef Hochberg: Controlling the false discovery rate: a practical and powerful approach to multiple testing. In: Journal of the Royal Statistical Society Series B. Band 57, 1995, S. 289–300 (tau.ac.il [PDF]).
  29. Yoav Benjamini, D. Yekutieli: The control of the false discovery rate in multiple testing under dependency. In: Annals of Statistics. Band 28, 2001, S. 1165–1189.
  30. E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 2022, Theorem 9.3.2, S. 437.
  31. a b c d e Bernhard Rüger: Test- und Schätztheorie, Band II: Statistische Tests. 2002, S. 327.
  32. Thorsten Dickhaus: Multiples Testen. 2022, S. 19.
  33. When to adjust alpha during multiple testing: A consideration of disjunction, conjunction, and individual testing https://arxiv.org/abs/2107.02947
  34. Eric W. Weisstein: Bonferroni Correction. In: MathWorld (englisch).