Jacob Fricke Data Analyst For Good

Signifikanzberechnung bei A/B-Tests für Nichtstatistiker

S

In meinem letzten Blogbeitrag Was bedeutet es, wenn ein A/B Test statistisch signifikant ist? habe ich erläutert, wann die Ergebnisse eines A/B-Tests statistisch signifikant sind und was P-Werte damit zu tun haben. In diesem Beitrag erkläre ich, wie man den P-Wert berechnet.

Zur Erinnerung – der P-Wert gibt an:

Mit welcher Wahrscheinlichkeit erhält man Ergebnisse, die mindestens genauso extrem ausfallen wie die, die man gemessen hat, wenn die Nullhypothese zutrifft.

Abhängig von der Art der untersuchten Daten und des Studiendesigns, existieren von ANOVA bis Z-Test zahlreiche Verfahren, den P-Wert eines Hypothesentests zu bestimmen.1

Für die Auswertung von A/B-Tests sind jedoch (in fast allen Fällen) zwei Testverfahren ausreichend:

  • Der Chi-Quadrat-Test für kategorische Daten, wie zum Beispiel “geöffnet” oder “nicht geöffnet” bzw. “gespendet” oder “nicht gespendet”
  • Der Welch-Test für stetigen Daten, wie zum Beispiel der der Höhe von Spendenbeträgen oder der Summe des Warenkorbes bei einem Online-Shop.

Diese beiden Methoden werde ich vorstellen und jeweils kurz auf mögliche Alternativen eingehen und begründen, warum diese meiner Meinung nach nicht verwendet werden müssen.

Chi-Quadrat-Test

Der Chi-Quadrat-Test ist eine der ältesten statistischen Testverfahren. Er wurde erstmals im Jahr 1900 von Karl Pearson beschrieben. Die Rechenoperationen sind größtenteils sehr leicht ohne Computer auszuführen.2

Voraussetzungen für den Test sind:

  • Die Daten müssen aus einer Zufallsstichprobe stammen
  • Die Daten müssen kategorisch sein
  • Die vorhandenen Merkmale müssen groß genug sein. Jeder Eintrag muss den Wert fünf übersteigen.
  • Die Häufigkeiten der Merkmale liegen als absolute Zahlen vor.
  • Kein untersuchtes Subjekt darf in beiden Gruppen vorhanden sein.

Diese Annahmen treffen zum Beispiel für folgendes A/B Testergebnis zu:

chi-quadrat-1 A/B-Testing

In diesem Beispiel wurden zwei Variationen einer Seite (A und B) in einem Test miteinander verglichen. Die Variante A bekamen 1043 Besucher zu sehen. Von diesen klickten 96 auf einen Button. Die Variation B bekamen nur 1029 zu Gesicht und von diesen klickten 123 auf einen Button.

Wie kann ich nun den P-Wert berechnen, um zu bestimmen, ob zwischen der Variante A und B ein signifikanter Unterschied im Klickverhalten existiert?

Chi-Quadrat berechnen

Um den P-Wert zu berechnen, muss man in vier Schritten Chi-Quadrat berechnen.

Erstens erweitert man die oben aufgeführte Tabelle um eine Spalte für Nicht-Klicker und ergänzt jeweils die Summe der Spalten und Zeilen:

chi-quadrat-2-3 A/B-Testing

Zweitens berechnet man die erwarteten Häufigkeiten je Variation. Also wie viele Besucher geklickt bzw. nicht geklickt hätten, wenn kein Unterschied zwischen den Varianten bestünde. Die Formel dazu lautet (Zeilensumme x Spaltensumme) / Gesamtsumme:

chi-quadrat-3-3 A/B-Testing

Drittens subtrahiert man für jede Zelle den erwarteten von dem tatsächlichen Wert, quadriert das Ergebnis und teilt es durch den erwarteten Wert:

chi-quadrat-4-2 A/B-Testing

Viertens addiert man die Werte in allen vier Zellen. Die Summe entspricht Chi-Quadrat:

0,217 + 0,220 + 1,839 + 1864 = 4,1415

Die Freiheitsgrade berechnen

Um aus Chi-Quadrat den P-Wert zu bilden, muss man die Anzahl der Freiheitsgrade (df) bestimmen. Die Formel dazu lautet: (Anzahl der Zeilen − 1) x (Anzahl der Spalten − 1). In diesem Beispiel also:

(2 – 1) x (2 – 1) = 1

Den P-Wert bestimmen

Schlussendlich bestimmt man mit Hilfe von Chi-Quadrat und den Freiheitsgraden den P-Wert. Dies ist theoretisch manuell möglich, aber sehr kompliziert. Deshalb greift man entweder auf eine Tabelle zurück, um den P-Wert abzulesen, oder macht sich das Leben mit einem der vielen Onlinerechner einfach.

Für dieses Beispiel beträgt der P-Wert 0,0418. Der Unterschied ist daher statistisch signifikant. Die komplette Berechnung inkl. P-Wert habe ich in einem GoogleDoc durchgeführt. Mit Hilfe der dort benutzten Formeln kannst Du Dir einen eigenen A/B-Test Signifikanzrechner bauen. Alternativ empfehle ich den Chi-Squared Test Calculator von Evan Miller.

Exakter Test nach Fisher oder Korrektur nach Yates

Der Chi-Quadrat-Test hat einen Nachteil. Die Berechnung des P-Wertes ist nicht genau – insbesondere bei kleinen Fallzahlen. Viele Statistikbücher empfehlen deshalb immer den exakten Test nach Fisher anstelle des Chi-Quadrat-Tests zu verwenden oder letzten um die Korrektur nach Yates zu ergänzen. Auch bei meinem aktuellen Arbeitgeber wurden früher A/B-Tests mit dem exakten Test nach Fisher ausgewertet.

Die zwei genannten Testverfahren berechnen den P-Wert allerdings so konservativ, dass die tatsächliche Ablehnungsrate unter dem nominalen Signifikanzniveau liegt. Es wird also in vielen Fällen kein Unterschied zwischen den Varianten erkannt, obwohl in Wirklichkeit einer vorhanden ist. Verschiedene Statistiker raten deshalb von der Verwendung des exakten Tests nach Fisher oder der Korrektur nach Yates ab.3 Ich schließe mich dieser Empfehlung an.

Welch-Test

Eine Voraussetzung für den Chi-Quadrat-Test ist, dass es sich bei den Testergebnissen um kategorische Daten handelt. Das ist bei der Spendenhöhe nicht der Fall. Diese kann von 0 bis unendlich theoretisch jeden Wert annehmen. Deshalb können wir mit Hilfe des Chi-Quadrats-Tests nicht überprüfen, ob eine Variation dazu führt, dass die Spender signifikant höhere oder niedrigere Beträge spenden.

Um dies zu bestimmen, eignet sich der Zweistichproben-t-Test mit ungleichen Standardabweichungen – auch bekannt als Welch Test. Eine Anleitung für den Welch-Test habe ich bereits in einem früheren Beitrag mit dem Titel Durchschnittsspende – Wie vergleiche ich verschiedene Mailings? geschrieben. Ich werde deshalb hier nicht weiter darauf eingehen.

Wilcoxon-Mann-Whitney-Test

Wenn man in einem Statistikbuch zu den Voraussetzungen für den Welch Test nachliest, stolpert man dort zwangsläufig darüber, dass die untersuchten Daten normalverteilt sein müssen. Was ist damit gemeint?

Normalverteilte vs. nicht normalverteilte Daten

Die Daten einer Spendenseite sind normalverteilt, wenn nur sehr wenige Spenderinnen niedrige und hohe Summen spenden, und die meisten Spenderinnen Beträge um den Median ausgewählt hätten. Von nicht normalverteilten Daten spricht man hingegen, wenn eine Verzerrung nach links oder rechts vorliegt.

Ein Beispiel. Wenn bei 90 Spenderinnen:

  • 50 Spenderinnen 5 Euro
  • 20 Spenderinnen 10 Euro
  • 10 Spenderinnen 20 Euro
  • 5 Spenderinnen 30 Euro
  • 5 Spenderinnen 40 Euro

gespendet haben. Dann würde die Verteilung in einer Grafik so aussehen:

verteilung-links-1024x630 A/B-Testing
Verteilung mit Verzerrung nach links

Eine Normalverteilung wäre hingegen, wenn bei 100 Spenderinnen

  • 2 den Betrag von 5 Euro
  • 13 den Betrag von 10 Euro
  • 34 den Betrag von 15 Euro
  • 34 den Betrag von 20 Euro
  • 13 den Betrag von 25 Euro
  • 2 den Betrag von 30 Euro

gespendet hätten. Das würde dann so aussehen:

verteilung-normalverteilung-1024x630 A/B-Testing
Normalverteilung

Der Welch-Test ist auch bei nicht normalverteilten Daten geeignet

Spendenbeträge sind selten normalverteilt. In diesen Fällen schlagen viele als Alternative den Wilcoxon-Mann-Whitney-Test vor, der auch bei nicht normal verteilten Daten funktioniert. So schreibt die populäre Seite CXL in ihrem Artikel 10 Statistics Traps in A/B Testing:

The Mann-Whitney U-Test (Wilcoxon rank-sum test) is an alternative to the t-test when the data deviates greatly from the normal distribution.

Aber ist der Wilcoxon-Mann-Whitney-Test bei nicht normalverteilten Daten wirklich die bessere Wahl? Zumal die Berechnung wesentlich komplexer ist.

Morton W. Fagerland meint “Nein”. Auf Basis einer Simulation, in welcher er den Welch-Test mit dem Wilcoxon-Mann-Whitney-Test vergleicht, kommt er zu dem Schluss, dass bei großen Fallzahlen der Welch-Test auch für nicht-normalverteilte Daten robuste Ergebnisse liefert:4

For large studies, however, where the purpose is to compare the means of continuous variables, the choice of test is easy: the t-test is robust even to severely skewed data and should be used almost exclusively.

Da wir im A/B-Testsing selten mit kleinen Fallzahlen arbeiten, ist der Welch-Test meiner Meinung nach fast immer ausreichend.

  1. Prel, J.-B.D., Röhrig, B., Hommel, G., Blettner, M., 2010. Choosing Statistical Tests. Deutsches Aerzteblatt Online. doi:10.3238/arztebl.2010.0343
  2. Pearson, K., 1900. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science 50, 157–175. doi:10.1080/14786440009463897
  3. z. B. Dagostino, R.B., Chase, W., Belanger, A., 1988. The Appropriateness of Some Common Procedures for Testing the Equality of Two Independent Binomial Populations. The American Statistician 42, 198. doi:10.2307/2685002
  4. Fagerland, M.W., 2012. t-tests, non-parametric tests, and large studies—a paradox of statistical practice? BMC Medical Research Methodology 12. doi:10.1186/1471-2288-12-78

About the author

Jacob Fricke

Hi, ich bin Jacob. Ich arbeite als Fundraiser und Datenanalyst bei Campact. Mehr Informationen über mich findest Du auf dieser Seite.

Add comment

Von Jacob Fricke
Jacob Fricke Data Analyst For Good

Erhalte meinen wöchentlichen Newsletter, in dem ich Dir meine besten Tipps zum Thema Online-Fundraising, A/B-Testing, Data Science und Produktivität gebe!

100% Privatsphäre. Kein Spam.