Jacob Fricke Data Analyst For Good

Multiples Testing: Bonferroni-Korrektur

M

Angenommen Du führst einen A/B-Test durch. Auf einer Spendenseite vergleichst Du dazu einen roten und einen grünen Button. Jede Variante bekommen 1.000 Besucher zu Gesicht. Am Ende des Tests stellst Du fest, dass von den Besuchern der Seite mit dem grünen Button 100 gespendet haben. Von den Besuchern der Seite mit dem roten Button hingegen 130. Dieser Unterschied ist statistisch signifikant. Der P-Wert beträgt 0,0355. Die Wahrscheinlichkeit, dass Du ein solches Ergebnis erhältst, obwohl die Buttons keinen Unterschied machen, beträgt also 3,5%. Das ist sehr unwahrscheinlich. Und da dieser Wert unter 5% liegt, spricht man von einem statistisch signifikanten Ergebnis.

Was aber, wenn Du nicht zwei Buttons, sondern 21 Buttons gegeneinander testest? Wäre dann ein P-Wert von 3,5% immer noch ein extrem unwahrscheinliches Ergebnis, wenn kein Unterschied zwischen den Buttons bestünde? Nein, denn mit jeder zusätzliche Variante steigt die Chance, dass Du ein signifikantes Ergebnis erhältst. Bei einem Test mit 21 identischen Buttons, betrüge die Wahrscheinlichkeit, dass ein Button signifikant mehr Spenden produziert ca. 64%. Die Formel für die Berechnung dieses Wertes lautet:

CodeCogsEqn-3 A/B-Testing
CodeCogsEqn-4 A/B-Testing
CodeCogsEqn-5 A/B-Testing

Bonferroni-Korrektur

Die Bonferroni-Korrektur korrigiert das Signifikanzniveau von 0,05 auf 0,05 geteilt durch die Anzahl der Tests. In dem obigen Beispiel würdest Du beispielsweise die Nullhypothese nur ablehnen, wenn der P-Wert kleiner als 0,0025 ist. Bei einem Wert von 3,5% müsstest Du hingegen davon ausgehen, dass der Unterschied zufällig ist.

Die Bonferroni-Korrektur ist tendenziell etwas zu konservativ. Während sie also das Risiko eines falschen signifikantes Ergebnis senkt, steigert sie sogleich das Risiko, dass ein signifikanter Unterschied unerkannt bleibt.1

Holm-Bonferroni-Korrektur

Die Holm-Bonferroni-Methode mildert diese Schwäche ab. Sie korrigiert das Signifikanzniveau ebenfalls nach unten, aber mit einem geringeren Risiko, dass ein Unterschied zwischen den Varianten unentdeckt bleibt.2

Und so funktioniert sie: Zuerst sortierst Du alle errechneten P-Werte in aufsteigender Reihenfolge. Dann multiplizierst Du den kleinsten Wert mit der Anzahl der durchgeführten Hypothesentests. In unserem Beispiel wäre das 20. Den nächsthöheren Wert multipliziertst Du mit N minus 1 – also der Anzahl der Hypothesentests minus eins. Das machst Du bis zum letzten P-Wert, die folglich mit eins multipliziert wird.

Für die nun errechneten alternativen P-Werte kannst Du wieder das Signifikanzniveau von 5% verwenden.

The False Discovery Rate (Benjamini-Hochberg-Verfahren)

Die False Discovery Rate (FDR) ist der Anteil der falschen signifikanten Ergebnisse im Verhältnis zu allen signifikanten Ergebnissen. Sie lässt sich mit dem Benjamini-Hochberg-Verfahren kontrollieren: Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society57(1), 289-300.

  1. Ordne die einzelnen P-Werte Deiner Tests in aufsteigender Reihenfolge
  2. Weise den P-Werte Ränge zu. Der niedrigste P-Wert bekommt den Rang 1, der zweitniedrigste den Rang 2, usw.
  3. Multipliziere jeden P-Wert mit der Anzahl der Tests insgesamt (N) und teile ihn durch den ihm zugewiesenen Rang. Nun hast Du den angepasster P-Wert.

Wenn Du die False Discovery Rate auf 5% beschränken willst, markierst Du alle Tests, deren angepasster P-Wert unter 0,05 liegt, als signifikant.

Eine Anleitung für Praxis

Was bedeutet das nun? Musst Du wirklich bei jedem Test mit mehr als zwei Varianten eine der oben genannten Korrekturen durchführen? Nein. Das hängt davon ab, was die Folge eines falschen signifikanten Ergebnisses wäre:

  • Wenn ein falsches positives Testresultat dazu führen würde, dass Du eine von zwei E-Mail-Varianten als die vermeintlich bessere verschickst, obwohl sie beide identisch sind, dann würde ich Dir raten keine Korrektur vorzunehmen. Es wäre schlimmer einen signifikanten Unterschied zu übersehen, als irrtümlich von einem signifikanten Ergebnis auszugehen.
  • Wenn Du aber hingegen aufgrund eines falschen signifikanten Ergebnis relativ aufwendige Veränderungen auf Deiner Seite vornimmst, dann solltest Du auf jeden Fall eine Korrektur ausführen. Und nicht nur das, sondern eben auch mehrmals testen.

Weitere Infos

  1. Thomas, V. P. (1998). What’s wrong with Bonferroni adjustments. BMJ, 316(7139), 1236-1238.
  2. Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian journal of statistics, 65-70.

About the author

Jacob Fricke

Hi, ich bin Jacob. Ich arbeite als Fundraiser und Datenanalyst bei Campact. Mehr Informationen über mich findest Du auf dieser Seite.

Von Jacob Fricke
Jacob Fricke Data Analyst For Good

Erhalte meinen wöchentlichen Newsletter, in dem ich Dir meine besten Tipps zum Thema Online-Fundraising, A/B-Testing, Data Science und Produktivität gebe!

100% Privatsphäre. Kein Spam.