Statistik für Einsteiger: 21 Begriffe aus der Statistik, die Sie kennen sollten




„Ähm, und wofür brauchen wir das?“

Noch immer hallt das Klagen aus der Schulzeit nach – Die Konzepte, die viele von uns nur noch dunkel aus Mathebüchern in Erinnerung haben, sind jetzt höchst relevant für den Erfolg unseres A/B-Testing-Programms.

Die meisten von uns haben seit Jahren nichts mehr mit Chi-Quadrat-Tests zu tun gehabt, und kaum jemand von uns hat sich in letzter Zeit mit der Berechnung von p-Werten beschäftigt. Jetzt sollten wir uns diese Dinge allerdings wieder ins Gedächtnis rufen.

Warum? Die Statistik bildet das Grundgerüst für unsere Testergebnisse. Dank statistischer Methoden können wir trotz unvollständiger Daten fundierte Entscheidungen aufgrund eines Testergebnisses treffen. Damit Sie statistisch relevante A/B-Tests ausführen können, sollten Sie sich die Zeit nehmen, folgende wichtige Konzepte zu verstehen.

Nutzen Sie dieses Begriffsverzeichnis als Grundlage für das Verstehen von Statistiken, und bewahren Sie das Glossar auf, damit Sie es beim nächsten Interpretieren Ihrer Testergebnisse griffbereit haben. Um die folgenden Begriffe zu verstehen, sind keine Vorkenntnisse im Bereich der Statistik erforderlich. Einige der Konzepte hängen allerdings zusammen, sodass Sie möglicherweise die Definition eines anderes Begriffes nachlesen sollten, um ein bestimmtes Konzept zu verstehen.

Falls Sie detailliertere Informationen zu den Begriffen erhalten möchten, laden Sie die praktischen Hinweise zu statistischen Methoden in Onlineexperimenten (nur in englischer Sprache verfügbar) herunter.

  1. Bayessche Statistik: Hierbei handelt es sich um eine statistische Methode, bei der bei der Datenanalyse ein Bottom-up-Ansatz zur Berechnung der statistischen Signifikanz verwendet wird. Das bedeutet, dass die Erkenntnisse aus ähnlichen Experimenten als statistisches Instrument, eine sogenannte A-posteriori-Wahrscheinlichkeitsverteilung, verwendet werden. Dieser sogenannte Prior wird mit den Daten des aktuellen Experiments kombiniert, sodass Sie relevante Schlüsse aus dem aktuellen Experiment ziehen können.
  1. Konfidenzintervall: Hierbei handelt es sich um einen errechneten Bereich, mit dem die Sicherheit einer Schätzung einiger zugrunde liegender Parameter beschrieben wird. Im Fall von A/B-Tests sind diese zugrunde liegenden Parameter Konversionsraten oder Uplifts. Konfidenzintervalle bieten verschiedene theoretische Interpretationen, am häufigsten geht man bei einem Konfidenzintervall allerdings von einem Intervall aus, in dem mit einer gewissen Wahrscheinlichkeit eine tatsächliche Verbesserung stattfindet (z. B. eine 95%ige Wahrscheinlichkeit, eine tatsächliche Verbesserung zu erzielen).

Pic 1 Stats

Eine Gewinnervariante hat ein Konfidenzintervall, das vollständig über 0 liegt.

Eine nicht aussagekräftige Variante hat ein Konfidenzintervall, das 0 einschließt.

Eine Verlierervariante hat ein Konfidenzintervall, das vollständig unter 0 liegt.

  1. Continuous Monitoring: Mit diesem Begriff wird das Verhalten von Benutzern beschrieben. Von Continuous Monitoring spricht man, wenn Benutzer ständig nach den Ergebnissen Ihres Experiments sehen. Diese Vorgehensweise kann die Ergebnisse eines Experiments mit herkömmlichen statistischen Methoden verfälschen, da der Benutzer versucht ist, ein Experiment zu beenden, sobald die statistische Signifikanz erstmals erreicht wird, auch wenn die erforderliche Stichprobengröße zum verlässlichen Messen des Effekts noch gar nicht erreicht wurde.
  1. Effektstärke: Dieser Wert gibt den Unterschied zwischen dem Original und der Variante in einem Test an. Die Effektstärke muss bei vielen Stichprobenrechnern für das Testen mit festgelegtem Zeitraum (Fixed Horizon) eingegeben werden. Der Wert wird dann als MDE (minimal messbarer Effekt) bezeichnet. Bei Optimizely wird dieser Wert auch “Verbesserung” genannt (Siehe auch Punkt 11).
  1. Fehlerquote: Mit diesem Wert wird angegeben, mit welcher Wahrscheinlichkeit ein aussagekräftiger Unterschied zwischen einem Original und einer Variante in einem A/B-Test durch puren Zufall gefunden wird bzw. mit welcher Wahrscheinlichkeit kein Ergebnis ermittelt wird, obwohl es ein Ergebnis gäbe. Die Fehlerquote umfasst sowohl Fehler 1. Art als auch Fehler 2. Art oder Falsch-positiv- und Falsch-negativ-Ergebnisse.

Pic 2 Stats

Ein falsch-positives Ergebnis liegt vor, wenn ein Unterschied angezeigt wird, aber kein Unterschied vorliegt. Ein falsch-negatives Ergebnis liegt vor, wenn kein Unterschied angezeigt wird, in Wirklichkeit aber ein Unterschied vorliegt.

  1. Falsch-positiv-Rate: Hierbei handelt es sich um die Rate von Fehlern 1. Art oder von ermittelten signifikanten Ergebnissen, für die in Wirklichkeit keine aussagekräftigen Daten vorlagen. Die Rate wird berechnet, indem die Anzahl der falsch-positiven Ergebnisse durch die Summe aus falsch-positiven und falsch-negativen Ergebnissen geteilt wird.
  1. False-Discovery-Rate: Diese Rate gibt an, mit welcher Wahrscheinlichkeit Fehler 1. Art in Experimenten mit vielen Kombinationen aus Zielen und Varianten vorliegen, die gleichzeitig gemessen werden sollen. Der Wert für die False-Discovery-Rate ist bei einem definierten Grenzwert für die Signifikanz möglicherweise höher als erwartet. Die erwartete Anzahl falsch berechneter Ergebnisse, z. B. fälschlicherweise ausgegebene Gewinner- oder Verlierervarianten, wird berechnet, indem die Anzahl an falsch-positiven Ergebnissen durch die Gesamtzahl der signifikanten Ergebnisse geteilt wird. Weitere Informationen zur False-Discovery-Rate.
  1. Hypothesentest mit festgelegtem Zeitraum (Fixed Horizon): Hierbei handelt es sich um einen Hypothesentest, bei dem herkömmliche statistische Methoden genutzt werden. In der Regel wird ein t-Test verwendet, mit dem ein Benutzer nach einer bestimmten Dauer ein relevantes Ergebnis erzielt (idealerweise nach Erreichen einer zuvor definierten Stichprobengröße, also einer bestimmten Anzahl an Besuchern im Experiment).
  1. Frequentistische Statistik: Hierbei handelt es sich um eine statistische Methode, bei der Vorhersagen getroffen werden, die auf den dem Experiment zugrunde liegenden Wahrheiten basieren. Beim Berechnen der statistischen Signifikanz werden dabei nur Daten des aktuellen Experiments verwendet. Frequentistische Aussagen widersprechen unter Umständen den Fakten und weisen eine Logik auf, die häufig von Rechtsanwälten vor Gericht verwendet wird.
  1. Hypothesentest: Diese Tests werden gelegentlich auch als t-Tests bezeichnet, bei denen Methoden der Inferenzstatistik verwendet werden, um zu bestimmen, ob das Ergebnis eines Experiments nur aus Zufall erzielt wurde. Hypothesentests versuchen, eine Nullhypothese zu widerlegen, also die Hypothese, dass zwei Varianten übereinstimmen. Beim A/B-Testing helfen Hypothesentests dabei, die Wahrscheinlichkeit zu ermitteln, mit der eine Variante eine bessere Leistung als eine andere erzielt, wobei angenommen wird, dass die Varianten identisch sind.
  1. Improvement: Das Improvement (Verbesserung) wird gelegentlich auch als „Uplift“ oder „Effektstärke“ bezeichnet. Es handelt sich dabei um die Leistungsänderung des veränderten Teils des Experiments (Variante) in die positive oder negative Richtung. Bei einem Anstieg der Konversionsrate handelt es sich z. B. um eine positive Verbesserung, ein Rückgang der Konversionsrate wäre eine Verschlechterung.
  1. Nullhypothese: Hierbei handelt es sich um die Ausgangsaussage, aufgrund derer die statistische Signifikanz berechnet wird. Die Hypothese besagt, dass der veränderte Teil des Experiments (Variante) dieselbe Leistung wie das Original aufweist. Die berechnete statistische Signifikanz entspricht der Wahrscheinlichkeit, mit der die Nullhypothese widerlegt werden kann, oder die Wahrscheinlichkeit, mit der tatsächlich ein Unterschied zwischen Variante und Original vorliegt. Das Ziel eines Hypothesentests ist es, diese Nullhypothese zu widerlegen, also dass die Leistung der beiden Varianten übereinstimmt.
  1. p-Wert: Der p-Wert gibt an, mit welcher Wahrscheinlichkeit durch puren Zufall ein statistisch signifikanter Unterschied zwischen einer Variante und der Kontrollversion in Ihrem Experiment erfasst wird. Anhand des berechneten p-Werts können Sie folgende Frage beantworten: Mit welcher Wahrscheinlichkeit liegt diese Verbesserung tatsächlich vor, falls die Nullhypothese wahr ist und es keinen Unterschied zwischen der Variante und der Kontrollversion gibt? Anders ausgedrückt: Wie wahrscheinlich ist es, dass der ermittelte Unterschied an der Konversionsrate bei einem Test nur aus Zufall gemessen wurde? Der p-Wert kann daher auch als Rate für Fehler 1. Art eines Tests betrachtet werden.
  1. Stichprobenrechner: Hierbei handelt es sich um eine Methode zur Reduzierung von Fehlern 1. Art in Hypothesentests, sofern es sich bei diesen um Tests mit festem Zeitraum (Fixed Horizon) Wenn Sie vor dem Start eines Experiments für einen Test eine Stichprobengröße festlegen, erwarten Sie für den Test eine bestimmte Laufzeit, in der Daten zum Berechnen der Ergebnisse gesammelt werden.
  1. Sequentieller Hypothesentest: Hierbei handelt es sich um einen Unterbereich des Testens einer Hypothese. Dank sequentieller Hypothesentests können Benutzer jederzeit eine Entscheidung auf Basis ihrer Testergebnisse treffen. Bei sequentiellen Hypothesentests gibt es keinen festgelegten Testzeitraum, sodass das Continuous Monitoring nicht wie bei Hypothesentests mit festgelegtem Zeitraum (Fixed Horizon) das Risiko einer erhöhten Falsch-positiv-Rate (Fehler) birgt.
  1. Statistische Konfidenz: Hierbei handelt es sich um die Wahrscheinlichkeit, mit der eine Nullhypothese nicht wahr ist. Der Wert kann als die Wahrscheinlichkeit oder „Sicherheit“ bezeichnet werden, mit der sich eine Variante von der anderen unterscheidet. Die statistische Sicherheit wird folgendermaßen berechnet: (1 – p-Wert). Auf der Ergebnisseite von Optimizely wird sie als die „Statistische Signifikanz“ angegeben.
  1. Statistischer Fehler: Ein statistischer Fehler ist ein Ergebnis, das zwar statistische Signifikanz aufweist, aber kein signifikantes Ergebnis darstellt. Statistische Fehler treten aufgrund von falschen Trends in den Experimentdaten auf, die einen falschen Eindruck vom Verhalten Ihrer Besucher und Benutzer vermitteln. Statistische Fehler werden auch als Falsch-positive-Ergebnisse oder Fehler 1. Art Es handelt sich dabei um irreführende Daten aus Ihrem Experiment, die keine tatsächlichen Verbesserungen im Zeitverlauf widerspiegeln.
  1. Statistische Teststärke: Die Teststärke wird folgendermaßen berechnet: (1 – Fehler 2. Art). Es handelt sich dabei um die Wahrscheinlichkeit, mit der ein Benutzer einen Unterschied ermitteln kann (falls vorhanden). Sie drückt gleichzeitig die Wahrscheinlichkeit aus, mit der eine Nullhypothese zu Recht widerlegt werden kann. Die Stats Engine von Optimizely kann für alle Experimente verwendet werden.
  1. Wert für die statistische Signifikanz: Dieser Wert gibt den Grenzwert für die p-Werte an, die ein Benutzer für seine Experimente akzeptiert. Falls der Grenzwert für den p-Wert ≤ 0,05 liegt, beträgt die statistische Signifikanz 95 %. Dieser Grenzwert gibt an, ab welcher Fehlerquote ein Benutzer mit den Ergebnissen seines Experiments zufrieden ist.
  1. Fehler 1. Art: Ein solcher Fehler liegt vor, wenn ein abschließendes Ergebnis (Gewinner- oder Verlierervariante) ausgegeben wird, obwohl in Wirklichkeit kein aussagekräftiges Ergebnis vorliegt. Dies wirdhäufig auch als falsch-positives Ergebnis bezeichnet. „Positiv“ kann dabei auch durch „abschließend“ oder „aussagekräftig“ ersetzt werden. Das Ergebnis kann entweder eine Gewinner- oder eine Verlierervariante sein. Hypothesentests, bei denen die statistische Signifikanz berechnet wird, werden häufig dazu verwendet, Fehler 1. Art in den ausgeführten Experimenten zu verhindern.
  1. Fehler 2. Art: Diese Fehler treten auf, wenn kein abschließendes Ergebnis (Gewinner- oder Verlierervariante) ausgegeben wird, weil kein aussagekräftiger Unterschied zwischen einer Kontrollversion und einer Variante ermittelt wurde, obwohl ein Unterschied vorlag. Dies wird auch als falsch-negatives Ergebnis bezeichnet.

Statistik Blogpost DE