Was bedeutet es, wenn ein A/B Test statistisch signifikant ist?

W

Auf meiner Arbeit werde ich immer wieder gefragt, wann ein A/B Test statistisch signifikant ist und was das überhaupt bedeutet. Erst kürzlich bin ich wieder in die Verlegenheit gekommen, dies einem Kollegen erklären zu müssen. Ich war nicht zufrieden. Denn ich habe gemerkt, dass obwohl ich inzwischen sehr viel darüber weiß, es mir immer noch sehr schwer fällt, dieses Wissen so zu artikulieren, dass auch andere davon profitieren.

Ich möchte deshalb in diesem Beitrag drei Fragen beantworten:

(1) Was ist statistische Signifikanz?
(2) Wie wird statistische Signifikanz gemessen?
(3) Wie interpretiere ich P-Werte richtig?

Was ist statistische Signifikanz?

Die deutsche Wikipedia definiert statistische Signifikanz wie folgt:[efn_note]“Statistische Signifikanz.” Wikipedia, 3 Mar. 2019, de.wikipedia.org/wiki/Statistische_Signifikanz.[/efn_note]

Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der Nullhypothese) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird

Verstanden? Nein? Hätte ich vermutlich auch nicht, wenn ich nicht bereits wüsste, was mit statistischer Signifikanz gemeint ist. Eine bessere und einfachere Beschreibung ist deshalb:

Ein Test ist dann statistisch signifikant, wenn der Unterschied zwischen Variante A und Variante B nicht mehr durch Zufall erklärbar ist.

Das ist schon etwas einleuchtender, aber immer noch sehr abstrakt. Deshalb möchte ich es noch einmal an einem Beispiel verdeutlichen.

Statistische Signifikanz mit Münzen erklärt

Angenommen ich habe zwei Münzen. Ich werfe beide Münzen hundertmal in die Luft. Nach jedem Wurf notiere ich mir, ob die Münze mit der Zahl oder dem Kopf nach oben landet. Bei jedem Wurf beträgt die Wahrscheinlichkeit, dass ich Kopf werfe 50 Prozent. Im Mittel gehe ich also davon aus, dass beide Münzen um die 50-mal auf Kopf landen müssten.

Angenommen die eine Münze landet 58-mal auf Kopf und die andere Münze 50-mal. In diesem Fall würde ich kaum annehmen, dass die Münzen sich voneinander unterscheiden. Vielmehr ginge ich davon aus, dass die eine Münze zufällig etwas häufiger auf Kopf gelandet ist.

Was aber, wenn die eine Münze 50-mal und die andere Münze 80-mal auf Kopf landet. Ist ein solches Ergebnis noch durch reinen Zufall zu erklären? Oder muss ich eher davon ausgehen, dass die Münzen unterschiedlich sind und eine davon eine sehr viel höhere Wahrscheinlichkeit hat auf Kopf zu landen? Also ein statistisch signifikanter Unterschied zwischen den beiden Münzen existiert. Hier kommt der P-Wert ins Spiel.

p_values AB Testing Statistik
https://xkcd.com/1478/

Der P-Wert. Ein schwieriges Konzept.

Die technische Definition des P-Wertes lautet:

Mit welcher Wahrscheinlichkeit erhält man Ergebnisse, die mindestens genauso extrem ausfallen wie die, die man tatsächlich gemessen hat, wenn die Nullhypothese zutrifft.

Wieder zu abstrakt? Das kann ich verstehen. Allerdings ist es schwer, den P-Wert verständlich und richtig zu erklären. Selbst Wissenschaftler, die sich kaum mit etwas anderem beschäftigen scheitern daran:[efn_note] Aschwanden, Christie. “Not Even Scientists Can Easily Explain P-Values.” FiveThirtyEight, 24 Nov. 2015, fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/. [/efn_note]

Last week, I attended the inaugural METRICS conference at Stanford, which brought together some of the world’s leading experts on meta-science, or the study of studies. I figured that if anyone could explain p-values in plain English, these folks could. I was wrong.

To be clear, everyone I spoke with at METRICS could tell me the technical definition of a p-value (…) but almost no one could translate that into something easy to understand.

Ich möchte es dennoch versuchen. Die Nullhypothese ist das Gegenteil dessen, was ich beweisen will. Bei einem A/B-Test wäre dies, dass zwischen Variante A und B kein Unterschied besteht. Um die Sache nicht unnötig kompliziert zu machen, greifen wir auch in diesem Fall auf ein Beispiel mit einer Münze zurück.

P-Werte und Münzwürfe

Angenommen ich habe eine Münze und ich vermute, dass diese so geformt ist, dann sie mit einer höheren Wahrscheinlichkeit auf Kopf landet. Meine Nullhypothese lautet dann, dass die Münze bei der Hälfte der Würfe auf Kopf landet.

Nun werfe ich die Münze einmal in die Luft. Sie landet auf Kopf. Die Wahrscheinlichkeit für dieses Ereignis beträgt 50%, wenn die Nullhypothese zutrifft. Der P-Wert ist also 0,5.

Ich werfe die Münze erneut und wieder landet sie auf Kopf. Die Wahrscheinlichkeit, dass ich zweimal hintereinander mit einer normalen Münze Kopf werfe beträgt 25% (p = 0,25).

Der dritte, vierte und fünfte Versuch ergibt ebenfalls Kopf. Ich habe am Ende also fünfmal hintereinander Kopf geworfen. Die Wahrscheinlichkeit, dass ich mindestens 5-mal hintereinander Kopf mit einer normalen Münze werfe, beträgt etwas mehr als 3% (p = 0,031).

Der P-Wert sagt nichts darüber aus, mit welcher Wahrscheinlichkeit eine Variante besser ist

Das und nichts anderes sagt der P-Wert aus. Das ist aber genau das Problem. Denn wenn wir zum A/B-Testing zurückkehren, dann drückt der P-Wert aus, wie wahrscheinlich es ist, unter der Annahme die Nullhypothese trifft zu, dass ich ein bestimmtes Ergebnis erhalte. Der P-Wert erlaubt hingegen keine Aussage darüber, wie wahrscheinlich es ist, dass einer der beiden Varianten besser ist oder wie wahrscheinlich es ist, dass sich die Varianten nicht unterscheiden. Das geht so sehr gegen die menschliche Intuition, dass es von vielen A/B-Testern immer wieder falsch gemacht wird.

Selbst Dan Siroker, einer der Mitbegründer von Optimizely und Director of Analytics der 2008er Obama Kampagne schafft es, diesen Fehler in seinem Standardwerk zu AB-Testing zu machen:[efn_note] Siroker, Dan, et al. A/B Testing: the Most Powerful Way to Turn Clicks into Customers. John Wiley & Sons, Inc., 2015.[/efn_note]

For our value of 3.09, this results in a p-value of 0.0021. This means that there is only a 0.2 percent chance that the difference we observed is due to random chance. If not due to random chance, it must be due to the differential experience. Put another way, there is a 99.8 percent chance that version B increases conversion above version A. This is the number many statistical packages, including Optimizely, publish as the chance to beat original metric (though Optimizely uses a one-tailed test).

Das klingt toll und es ist auch was wir als Tester eigentlich gerne wissen wollen. Aber mathematisch ist es einfach nur falsch. Der P-Wert enthält keine Information darüber, mit welcher Wahrscheinlichkeit das von uns beobachtete Ergebnis auf Zufall beruht – denn er wird ja gerade unter der Annahme berechnet, dass die Verteilung zufällig ist. Der P-Wert enthält auch keine Information darüber, welche der beiden Varianten besser ist. 

In der Tat werden bei der Interpretation von P-Values so viele Fehler begangen, dass der Epidemologe Greenland zusammen mit Kollegen in einem sehr lesenwerten Artikel ganze 25 Fehlinterpretationen von P-Werten aufgelistet hat.[efn_note]Greenland, Sander, et al. “Statistical Tests, P Values, Confidence Intervals, and Power: a Guide to Misinterpretations.” European Journal of Epidemiology, vol. 31, no. 4, 2016, pp. 337–350., doi:10.1007/s10654-016-0149-3.[/efn_note]

P-Werte und statistische Signifikanz. Die magische Grenze von 5 Prozent.

Fassen wir die bisherigen Erkenntnisse zusammen. Ein A/B-Test ist statistisch signifikant, wenn das Ergebnis so stark von der Annahme abweicht, dass kein Unterschied zwischen A und B besteht, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird. A/B-Tester greifen dabei meist auf die Regel zurück, dass ein Test dann statistisch signifikant ist, wenn der P-Wert unter fünf Prozent liegt. Also die Wahrscheinlichkeit, dass man ein solches Ergebnis sehen würde, wenn kein Unterschied zwischen A und B bestehen würde, unter fünf Prozent beträgt.

Die 5-Prozent-Grenze ist willkürlich gezogen

Warum aber nun fünf Prozent? Und was bedeutet es, wenn mein P-Wert 0,06 beträgt? Ist mein Test dann komplett wertlos? Nein, denn bei der 5-Prozent-Regel handelt es sich um eine weitestgehend willkürlich gezogene Grenze. Der britische Statistiker R.A. Fisher spricht sogar von einer persönlichen Präferenz:[efn_note] Fisher, Ronald Aylmer. Statistical Methods for Research Workers. Kalpaz, 2017.[/efn_note]

Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore entirely all results which fail to reach this level. A scientific fact should be regarded as experimentally established only if a properly designed experiment rarely fails to give this level of significance.

P-Werte dienen der Orientierung

Und er und seine Statistiker-Kollegen Neyman und Pearson führen an verschiedenen Stellen aus, dass man niemals ein Experiment nur auf Basis des P-Wertes verwerfen sollte:

…no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas.[efn_note] Fisher, Ronald Aylmer. Statistical Methods for Research Workers. Kalpaz, 2017.[/efn_note]

It is doubtful whether the knowledge that [p] was really 0.03 (or 0.06), rather than 0.05 (…) would in fact ever modify our judgment (…) The tests themselves give no final verdict, but as tools help the worker who is using them to form his final decision.[efn_note]Neyman, J., and E. S. Pearson. “On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I.” Biometrika, vol. 20A, no. 1/2, 1928, p. 175., doi:10.2307/2331945. [/efn_note]

P-Werte sind also vielmehr ein Orientierungsrahmen. Bei einem P-Wert von 0,89 lohnt es sich nicht, den Test noch einmal zu wiederholen. Bei einem P-Wert von 0,07 hingegen schon. Gleiches gilt für einen P-Wert von 0,04. Denn auch wenn mein P-Wert unter fünf Prozent liegt, kann ich mir keinesfalls sicher sein, dass die Gewinnervariante tatsächlich dauerhaft besser abschneidet.

Ohnehin sollten A/B-Tester neben den P-Wert viel öfter auf die damit verbundenen Konfidenzinterveralle achten. Denn was nützt mir ein P-Wert von 0,0001, wenn die Variante B am Ende nur minimal besser als die Variante A ist. Aber das ist ein Thema für einen weiteren Blogbeitrag. Wenn Du den nicht verpassen möchtest, dann abonniere bitte meinen Newsletter unter den Kommentaren.

About the author

Jacob Fricke

Hi, ich bin Jacob. Ich arbeite als Fundraiser und Datenanalyst bei Campact. Mehr Informationen über mich findest Du auf dieser Seite.

4 comments

By Jacob Fricke

Your sidebar area is currently empty. Hurry up and add some widgets.