Statistik fürs Internetzeitalter: Warum wir Optimizely’s neue Stats Engine entwickelt haben




Klassische statistische Methoden wie t-Tests bilden die Basis für Conversion-Rate-Optimierung und unterstützen Unternehmen dabei, datengestützte Entscheidungen zu treffen. Mit der rasanten Zunahme von Onlineexperimenten in den letzten Jahren ist uns bewusst geworden, dass diese traditionellen statistischen Methoden nicht optimal für digitale Daten geeignet sind: Das Anwenden klassischer statistischer Methoden auf das A/B-Testing kann zu Fehlerquoten führen, die sehr viel höher sind, als von den meisten Benutzern erwartet.

Sowohl Branchenexperten als auch Wissenschaftler haben über lange Zeit versucht, durch Trainingsmaterial und Wiederholung der immergleichen Mantras die Nutzer zu schulen: Schauen Sie nicht vor dem Erreichen der Stichprobengröße auf die Ergebnisse! Verwenden Sie einen Stichprobenrechner! Testen Sie nicht zu viele Ziele und Varianten gleichzeitig!

Wir sind zur Erkenntnis gekommen, dass es jetzt an der Zeit ist, dass sich Statistik an die Realität in Unternehmen anpasst anstelle dass Optimierer unintuitive Arbeitsprozesse einführen müssen, um statistisch wasserdichte Ergebnisse zu erhalten. Verabschieden Sie sich von den klassischen t-Tests. Mit der Optimizely Stats Engine verwenden Sie ab sofort Statistik, die intuitiver ist und sich der Arbeitsweise Ihres Unternehmens anpasst.

Wir haben in Zusammenarbeit mit einem Team von Statistikern der Stanford University die Optimizely Stats Engine entwickelt – ein neues statistisches Framework für A/B-Testing. Wir freuen uns, bekannt geben zu können, dass die Ergebnisse seit dem 21. Januar 2015 für alle Optimizely-Kunden über die Stats Engine bereitgestellt werden.

Optimizely Statistics Stats Engine

Dieser Blogpost ist recht umfangreich, da wir Ihnen die Gründe für die Änderungen, die Neuerungen selbst sowie die Auswirkungen auf Ihre A/B-Tests detailliert erklären möchten. In diesem Blogpost erfahren Sie Folgendes:

  • Gründe für die Einführung der Stats Engine: Dank der Natur des Internets sammeln Sie mit jedem Besucher neue Erkenntnisse und können einfach Tests mit vielen Zielen und Varianten ausführen. Beim Einsatz klassischer statistischer Methoden steigern solche intuitiven Verhaltensweisen die Wahrscheinlichkeit um ein Fünffaches, dass fälschlicherweise eine Gewinner- oder Verlierervariante ausgegeben wird.
  • Funktionsweise: Wir kombinieren sequentielle Hypothesentests mit Kontrollmöglichkeiten für die False-Discovery-Rate (FDR), damit Sie unabhängig von der Stichprobengröße (Besucherzahl im Experiment) gültige Ergebnisse erhalten. Zudem passen wir die Fehlerquote so an, dass sie den Anforderungen Ihres Unternehmens entspricht: so ist es in den Projekteinstellungen möglich, selbst auszuwählen, ab wann ein Gewinner gekenntzeichnert wird. Wenn Sie die Anforderung haben, dass Optimizely bei 95% Signifikanz einen Gewinner kürt, dann können Sie das jetzt einstellen.

  • Vorteile: Die Stats Engine verringert die Wahrscheinlichkeit von 30 % auf 5 %, dass eine Variante fälschlicherweise als Gewinner- oder Verlierervariante ausgegeben wird, ohne dass der Test dadurch länger dauert.

Möchten Sie sich direkt die theoretischen und mathematischen Grundlagen der Stats Engine ansehen? Lesen Sie sich diesen wissenschaftlichen Fachartikel durch (nur in englischer Sprache verfügbar).

Gründe fur die Einführung der neuen Stats Engine

Traditionelle Statistikverfahren sind nicht intuitiv, werden falsch verwendet und schöpfen das Potential von Optimierung durch zu langes Warten nicht voll aus.
Damit Sie bei A/B-Tests mit herkömmlichen Statistikmethoden gültige Ergebnisse erhalten, müssen strenge Richtlinien eingehalten werden: Vor Beginn des Tests müssen ein minmal messbarer Effekt (Minimum Detectable Dffect, auch MDE genannt) und eine Stichprobengröße definiert werden, Sie dürfen nicht vor Erreichen der Stichprobengröße auf die Ergebnisse schauen, und Sie dürfen nicht zu viele Ziele und Varianten gleichzeitig für Ihren Test verwenden.

Die Einhaltung dieser Richtlinien kann mühselig sein, und falls Sie sie nicht genau befolgen, entstehen möglicherweise unwissentlich Fehlinterpretierungen Ihrer Tests. Folgende Probleme mit den genannten Richtlinien lösen wir mit der Stats Engine:

  • Das Definieren eines Mindestuplifts (MDE) und einer Stichprobengröße im Voraus ist ineffizient und nicht intuitiv.
  • Wenn Sie sich die Ergebnisse vor Erreichen dieser Stichprobengröße ansehen, sind die Ergebnisse unter Umständen noch nicht aussagekräftig. Zudem ergreifen Sie möglicherweise Maßnahmen auf Grundlage einer falschen Gewinnervariante.
  • Das Testen zu vieler Ziele und Varianten gleichzeitig steigert die False-Discovery-Rate – eine Fehlerquote, die sehr viel größer als die intuitiv erwartete Fehlerquote sein kann.

Wir sehen uns diese Probleme in diesem post im Detail an.

Das Definieren einer Stichprobengröße und eines Mindestuplifts (minimal messbaren Effekts) verlangsamt den Prozess.

Beim Einsatz traditioneller statistischer Methoden verringert das Festlegen einer Stichprobengröße vor Ausführung des Tests das Fehlerrisiko. Beim Definieren jener Trafficgröße müssen Sie auch einen kleinsten messbaren Effekt (eine Art Mindestuplift oder einen erwarteten Anstieg der Konversionsrate) angeben, den Sie mit dem Test verlässlich ermitteln können möchten. Wenn Sie den Wert falsch einschätzen, kann dies beachtliche Auswirkungen auf die Dauer des Tests haben.

Wenn Sie einen kleinen Wert für den MDE angeben, benötigen Sie eine große Stichprobengröße (also viele Besucher im Experiment), um signifikante Ergebnisse zu erhalten. Wenn Sie einen größeren MDE-Wert erwarten, gehen Ihnen möglicherweise kleinere Uplifts durch die Lappen. Das ist nicht nur ineffizient, sondern auch unrealistisch. Die meisten Optimierer führen gerade deshalb Tests durch, da sie das Ergebnis nicht abschätzen können. Wenn sie aber im Voraus einen hypothetischen Uplift festgelegen müssen, ist das nicht sinnvoll.

Frühzeitiges und wiederholtes Anschauen Ihrer Ergebnisse erhöht die Fehlerquoten.

Wenn in Ihrem Experiment in Echtzeit neue Daten auflaufen, ist die Versuchung groß, die Ergebnisse immer wieder zu überprüfen. Sobald Sie eine Gewinnervariante ermittelt haben, möchten Sie wahrscheinlich die entsprechenden Änderungen zur Optimierung implementieren. Einen ergebnislosen Test möchten Sie vermutlich baldmöglichst beenden, damit Sie andere Tests starten und Hypothesen überprüfen können.

Statistiker bezeichnen dieses ständige Nachsehen als „Continuous Monitoring“. Dabei steigt das Risiko, dass Sie eine Gewinnervariante ermitteln, wo gar keine ist. (Das Continuous Monitoring ist natürlich nur problematisch, wenn Sie den Test dann auch beenden.) Falls Sie einen nicht signifikanten Gewinner finden, wird das als falsch-positives Ergebnis oder als Fehler 1. Art bezeichnet.

Bei jedem Test mit einem Wert für die statistische Signifikanz gibt es ein gewisses Fehlerrisiko. Wenn Sie einen Test mit einer statistischen Signifikanz von 95 % (also einen t-Test mit einem Alpha-Wert von 0,05) ausführen, bedeutet das, dass Sie akzeptieren, dass der Test mit einer Wahrscheinlichkeit von 5 % signifikante Ergebnisse liefert, auch wenn es sich dabei um einen A/A-Test ohne wirklichen Unterschied zwischen den Varianten handelt.

Um zu verdeutlichen, welche Risiken das Continuous Monitoring birgt, haben wir Millionen von A/A-Tests mit jeweils 5.000 Besuchern simuliert und dabei bewertet, mit welcher Wahrscheinlichkeit bei unterschiedlichen Richtlinien für das Continuous Monitoring Fehler auftreten. Diese Simulation hat gezeigt, dass selbst bei strengen Richtlinien angestrebte Fehlerquoten von 5 % auf bis zu 25 % steigen können.

Bei dieser Untersuchung haben 57 % der simulierten A/A-Tests während der Ausführung mindestens einmal, wenn meist auch nur kurz, fälschlicherweise eine Gewinner- oder Verlierervariante ausgegeben. Beim Überprüfen dieser Tests hätten Sie sich vermutlich gefragt, warum Ihr A/A-Test eine Gewinnervariante ermittelt. Eine höhere Fehlerquote hat entscheidende Auswirkungen, selbst wenn Sie das Ergebnis nicht nach jedem einzelnen Besucher auswerten. Wenn Sie die Daten nach jeweils 500 Besuchern abrufen, steigt die Wahrscheinlichkeit einer falschen Bewertung auf 26 %. Bei einer Überprüfung nach jeweils 1.000 Besuchern liegt diese Wahrscheinlichkeit bei 20 %.

AA-test

In dieser Grafik zur statistischen Signifikanz eines A/A-Tests im Zeitverlauf sehen Sie, wann der Benutzer beim Continuous Monitoring ein signifikantes Ergebnis gesehen hätte.

Selbst wenn Ihnen dieses Problem bewusst ist, führen herkömmliche Lösungen dennoch zu hohen Fehlerquoten. Angenommen, Sie sind sich unsicher, ob das Ergebnis Ihres A/B-Tests tatsächlich signifikant ist. Wie viele Optimizely-Kunden haben Sie während der Ausführung des Tests einen Stichprobenrechner verwendet, um zu ermitteln, ob Ihr Test schon ausreichend Daten gesammelt hat. Wenn Sie den Rechner während eines laufenden Tests zum Anpassen der Stichprobengröße einsetzen, nennt man das „Post-hoc-Berechnung“. Eine solche Vorgehensweise senkt zwar das durch das Continuous Monitoring entstehende Risiko, die Fehlerquoten liegen allerdings weiterhin bei etwa 25 %.

Bisher konnten diese Fehler nur dadurch verringert werden, dass Sie vor dem Test einen Stichprobenrechner verwendet und dann gewartet haben, bis Ihr Test ausreichend Besucher (Stichprobengröße) erreicht hat, bevor Sie anhand der Ergebnisse Entscheidungen getroffen haben.

Die gute Nachricht ist, dass es eine recht einfache und dennoch elegante statistische Lösung gibt, mit der die Ergebnisse immer gültig sind, egal, wann Sie diese abrufen. Zudem ist es nicht notwendig, vor Beginn des Tests einen kleinsten messbaren Effekt (verlässlich messbaren Mindestuplift) festzulegen. Bei der Lösung handelt es sich um sogenannte sequentielle Hypothesentests. Diese sehen wir uns später en détail an.

Das gleichzeitige Testen mehrerer Ziele und Varianten führt zu mehr Fehlern, als Ihnen möglicherweise bewusst ist.

Ein weiterer Nachteil bei der Verwendung traditioneller Vorgehensweisen entsteht durch das Testen zahlreicher Ziele und Varianten gleichzeitig (die sogenannte Alphafehler-Kumulierung). Der Grund hierfür ist, dass in traditioneller Statistik die Daten mithilfe der Falsch-positiv-Rate für jedes Ziel und jede Variante einzeln auf Fehler überprüft werden. Die Fehlerquote, die Sie mit dem Grenzwert für die Signifikanz festgelegt haben, entspricht jedoch nicht der Wahrscheinlichkeit, mit der Sie eine falsche Entscheidung für Ihr Unternehmen fällen.

Die Fehlerquote, die Sie zum Korrigieren der Alphafehler-Kumulierung steuern müssen, ist die False-Discovery-Rate (FDR). Im Beispiel unten sehen Sie, wie Sie durch das Festlegen der Falsch-positiv-Rate auf 10 % (90 % statistische Signifikanz) eine 50%ige Wahrscheinlichkeit erhalten, dass Sie aufgrund eines falschen Ergebnisses eine falsche Entscheidung für Ihr Unternehmen treffen.

Angenommen, Sie testen 5 Varianten Ihres Produkts oder Ihrer Website mit jeweils 2 Zielen als Messwerte für den Erfolg. Eine dieser Varianten weist eine bessere Leistung als die Baseline auf und wird zu Recht als Gewinner ausgegeben. Wir erwarten, dass durch puren Zufall fälschlicherweise eine weitere Variante als Gewinnervariante ermittelt wird (10 % der verbleibenden 9 Kombinationen aus Ziel und Variante). In diesem Fall werden also 2 Varianten als Gewinnervarianten aufgeführt.

Obwohl die Falsch-positiv-Rate 10 % (1 falsches Ergebnis) beträgt, haben wir einen sehr viel höheren Anteil (50 %) falscher Ergebnisse. Somit steigt die Wahrscheinlichkeit einer falschen Entscheidung.

In diesem Experiment sehen wir 2 Gewinner aus 10 Goal Varianten, die wir getestet haben. Lediglich eine der Varianten unterschiedet sich von der Baseline, während die andere eine falsch-positive Variante darstellt.

In diesem Experiment sehen wir 2 Gewinner aus 10 Goal-Varianten-Kombinationen, die wir getestet haben. Lediglich eine der Varianten unterschiedet sich von der Baseline, während die andere eine falsch-positive Variante darstellt.

Das Definieren der Falsch-positiv-Rate ist riskant, da dem Optimierer das Testen vieler Ziele und Varianten unbewusst zum Nachteil wird. Unter Umständen gehen Sie in der Praxis also höhere Risiken ein, als Ihnen bewusst ist. Um dieses Problem beim traditionellen A/B-Testing zu verhindern, sollten Sie immer wissen, wie viele Experimente und Varianten Sie ausführen. Ein abschließendes Ergebnis aus 10 Tests unterscheidet sich von einem abschließenden Ergebnis aus 2 Tests.

Glücklicherweise gibt es eine Möglichkeit, die Fehlerquote Ihres Experiments so festzulegen, dass sie Ihren Erwartungen entspricht. Mithilfe der Stats Engine werden die Fehler bzw. falschen Ergebnisse eingeschränkt. Die Fehlerquote, die Sie über den Grenzwert für die Signifikanz mit der Stats Engine definieren, spiegelt die tatsächliche Wahrscheinlichkeit wider, mit der Sie eine falsche Entscheidung für Ihr Unternehmen fällen.

Wie die Stats Engine funktioniert

Die Optimizely Stats Engine kombiniert innovative statistische Methoden und erlaubt es Ihnen so, sich schneller auf Ihre Ergebnisse zu verlassen.

Mit unseren Kunden haben uns in den vergangenen vier Jahren viel über die oben genannten Probleme gesprochen, und uns ist klar geworden, dass wir eine bessere Lösung finden mussten als einen Stichprobenrechner (Sample Size Calculator) und zusätzliches Schulungsmaterial anzubieten.

Wir haben in Zusammenarbeit mit einer Gruppe Statistikern der Stanford University ein neues statistisches Framework für A/B-Testing entwickelt, das leistungsstark, genau und vor allem unkompliziert ist. Diese neue Stats Engine kombiniert zwei Methoden: Sequentielle Tests und Kontrollmöglichkeiten für die False-Discovery-Rate (FDR).

Sequentielle Tests: Treffen Sie Entscheidungen, sobald Sie einen Gewinner sehen.

Beim Testen mit festgelegtem Zeitraum bewertet der Benutzer die Daten seines Experiments normalerweise nur einmal, und zwar genau dann, wenn eine festgelegte Stichprobengröße erreicht ist. Im Gegensatz dazu sind sequentielle Tests so ausgelegt, dass die Daten für das Experiment noch während der Datensammlung ausgewertet werden können. Sequentielle Tests können jederzeit unterbrochen werden, und Sie erhalten dennoch gültige Ergebnisse.

Die Nutzer haben selten eine feste Vorstellung von der Stichprobengröße, und ihr Ziel ist in der Regel, schnellstmöglich verlässliche Daten zu erhalten. Die Stats Engine erreicht dieses Ziel durch die Implementierung von sequentiellen Tests. Diese berechnen jedes Mal, wenn ein neuer Besucher Teil des Experiments wird, einen durchschnittlichen Likelihood-Quotienten. Dieser zeigt die relative Wahrscheinlichkeit, mit der sich die Variante von der Baseline unterscheidet. Der p-Wert eines Tests gibt an, wie wahrscheinlich der Test den festgelegten Grenzwert für die Signifikanz erreicht. Er ist analog zum traditionellen p-Wert, bei dem die Stichprobengröße dynamisch ist. Ein solcher Test weist eine Teststärke (Power) von 1 auf, und er eignet sich zum Erreichen des Ziels eines A/B-Tests  besser als ein traditioneller t-Test.

sequential-testing-graphic

Mit der neuen Stats Engine passt sich die Verlässlichkeit der Ergebnisse mit jedem Besucher an

Das heißt, Sie erhalten verlässliche Daten, sobald sie zur Verfügung stehen und ohne, dass Sie im Voraus einen minimal messbaren Effekt (Mindestuplift) definieren oder warten müssen, bis die festgelegte Stichprobengröße erreicht ist.

Kontrollmöglichkeiten für die False-Discovery-Rate: Erzielen Sie auch beim Testen vieler Ziele und Varianten garantiert genaue Ergebnisse.

Wenn Sie eine False-Discovery-Rate von 10 % definieren, bedeutet das, dass höchstens 10 % der Gewinner- oder Verlierervarianten mit der Baseline übereinstimmen. Diese 10% bedeuten das Risiko, dass Sie eine falsche Entscheidung für Ihr Unternehmen fällen.

Dank der Stats Engine gibt Optimizely jetzt Gewinner- und Verlierervarianten mit geringer False-Discovery-Rate anstatt mit geringer Falsch-positiv-Rate aus. Während Sie Ihrem Experiment Ziele und Varianten hinzufügen, passt Optimizely die False-Discovery-Rate an, sodass Gewinner- oder Verlierervarianten gezielter ausgegeben werden. Insgesamt werden zwar weniger Gewinner- und Verlierervarianten angezeigt (ca. 20 % weniger laut unserer Datenbank*), aber der Optimierer weiß  dafür genau, welches Risiko die Implementierung der entsprechenden Änderungen mit sich bringt.

Werden sequentielle Tests mit den Steuerungsmöglichkeiten für die False-Discovery-Rate kombiniert, erhalten Sie immer, wenn Sie die Testergebnisse einsehen, einen genauen Überblick über das Fehlerrisiko. Die Kontrollmöglichkeiten liefern Ihnen eine klare Beurteilung des Risikos, eine falsche Entscheidung zu treffen.

Das heißt, Sie können unbegrenzt viele Ziele und Varianten testen und erhalten dennoch garantiert genaue Ergebnisse.

*Anhand einer großen, repräsentativen Stichprobe bisheriger A/B-Tests von Optimizely-Kunden haben wir herausgefunden, dass es rund 20 % weniger Varianten mit einer False-Discovery-Rate unter 0,1 gibt als Varianten mit einer ebenso niedrigen Falsch-positiv-Rate.

Vorteile der neuen Stats Engine

Mit der Stats Engine zu weniger Fehlern, ohne an Geschwindigkeit zu verlieren.

Wir haben 48.000* frühere Tests erneut mit der Stats Engine ausgeführt, und das Ergebnis war deutlich: Die Stats Engine liefert genaue und umsetzbare Ergebnisse, ohne dabei an Geschwindigkeit einzubüßen.

Treffen Sie fundierte Entscheidungen anhand Ihrer Gewinner- und Verlierervarianten.

Ergebnisse haben nach einem festgelegtem Zeitraum (Fixed Horizon) bei 36 % der Tests eine Gewinner- oder Verlierervariante ausgegeben (nach Ende des Tests). Im selben Datensatz hat die Stats Engine bei 22 % aller Tests eine Gewinner- oder Verlierervariante ermittelt.

Von der Stats Engine wurden 39 % weniger abschließende Testergebnisse zurückgegeben als bei der Nutzung traditioneller statistischer Methoden. Dieser Wert sieht zwar alarmierend aus (wir waren zunächst auch besorgt), wir haben allerdings herausgefunden, dass viele der Experimente zu früh beendet wurden.

Zu diesem Ergebnis kamen wir durch die Verwendung einer ähnlichen Technologie, wie sie auch unsere Kunden nutzen, wenn sie mit dem Stichprobenrechner bestimmen, ob ein Test nach dem Start eine gute Teststärke (Power) aufweist (die Wahrscheinlichkeit, mit der sich ein reales Ergebnis abzeichnet). Diesen Vorgang nennt man die Berechnung der Post-hoc-Teststärke. Wenn Sie Tests mit einer zu geringen Teststärke ausführen, deutet dies darauf hin, dass die Daten nicht genügend Informationen liefern, um sicher zwischen falschen und richtigen Ergebnissen unterscheiden zu können. Bei einem standardmäßigen Wert von 80 % für die Teststärke wiesen 80 % der Tests, für die die Stats Engine keine abschließenden Ergebnisse ausgegeben hatte, eine zu geringe Teststärke auf, während 77 % der Tests, die auch über die Stats Engine abschließende Ergebnisse erhalten hatten, einen guten Teststärkewert zeigten.

Profitieren Sie von jederzeit verlässlichen Ergebnissen.

Die traditionelle Herangehensweise mit vorab festgelegter Stichprobengröße (Fixed Horizon) haben bei 44 % unserer früheren Experimente andere Angaben zu Gewinner- oder Verlierervarianten ermittelt. Bei der Stats Engine wichen die Angaben bei nur 6 % der Tests ab.

Bei statistischen Verfahren mit festgelegter Stichprobengröße (Fixed Horizon) sehen Sie an einem Tag eine Gewinnervariante, und am nächsten Tag liegen keine abschließenden Ergebnisse vor. Die einzige sichere Angabe erfolgt nach Erreichen der von Ihnen definierten Stichprobengröße. Bei Verwendung der Stats Engine sind die Ergebnisse zu jedem Zeitpunkt gültig, und das abschließende Ergebnis ändert sich in der Regel nicht.

Mit der Stats Engine sank die Falsch-positiv-Rate von mehr als 20 % auf  weniger als 5 %.

Rufen wir uns noch einmal die A/A-Testsimulationen (jeweils 5.000 Besucher pro Test) und die Risiken des Continuous Monitoring ins Gedächtnis. In den Simulationen wurden die Tests mit eine Signifikanz von 95 % ausgeführt, und wir haben folgende Erkenntnisse gewonnen:

  •   Wenn Sie die Ergebnisse nach jedem neuen Besucher abgerufen haben, lag die Wahrscheinlichkeit bei 57 %, eine Gewinner- oder Verlierervariante zu ermitteln.
  •   Wenn Sie die Ergebnisse nach jeweils 500 Besuchern abgerufen haben, lag die Wahrscheinlichkeit bei 26%, dass ein falsches Ergebnis zu sehen war.
  •   Wenn Sie die Ergebnisse nach jeweils 1000 Besuchern abgerufen haben, lag die Wahrscheinlichkeit bei 20%, dass ein falsches Ergebnis zu sehen war.
  •   Mit sequentiellen Tests (Abrufen nach jedem Besucher) ist diese Fehlerquote auf 3 % gesunken.

Werden diese Simulationen mit größeren Samples ausgeführt (z. B. 10.000 oder sogar 1.000.000 Besucher), steigt die Wahrscheinlichkeit eines falschen Ergebnisses beim Einsatz traditioneller Statistikmethoden (je nach Stichprobengröße) mühelos über 70 %, unabhängig davon, wie häufig Sie Ihre Ergebnisse ansehen. Bei sequentiellen Tests steigt diese Fehlerquote auf maximal 5 %.

Es gibt keinen Haken: Profitieren Sie von genauen und direkt umsetzbaren Ergebnissen bei gleichem Zeitaufwand.

Nachdem Sie bis hierhin gelesen haben, fragen Sie sich sicherlich: Wo ist der Haken? Es gibt keinen.

Wir erklären Ihnen nun, warum: Wenn Sie im Voraus eine individuelle Stichprobengröße festlegen, definieren Sie damit gleichzeitig einen minimal messbaren Effekt (minimal messbaren Mindestuplift). Wie oben beschrieben, ist das nicht ganz so einfach. Falls Sie für jedes Experiment noch vor der Ausführung den minimal messbaren Effekt (MDE) genau auf die 5 % des tatsächlichen Uplifts des Experiments festlegen würden, dauert der sequentielle Test durchschnittlich 60 % länger.

In Wirklichkeit wählen Optimierer jedoch einen MDE aus, der möglichst unterhalb des vermuteten Anstiegs liegen soll. Er zeigt, wie lange ein Experiment maximal ausgeführt werden soll. Mit der Stats Engine wird der Test schneller abgeschlossen, wenn der tatsächliche Anstieg über Ihrem MDE liegt.

Wir haben Folgendes herausgefunden: Sollte der Anstieg Ihres A/B-Tests am Ende 5 Prozentpunkte (relativ) über dem MDE liegen, führt die Stats Engine den Test ebenso schnell wie eine Statistik mit festgelegtem Zeitraum aus. Sobald die Verbesserung den MDE um 7,5 Prozentpunkte übersteigt, arbeitet die Stats Engine beinahe 75 % schneller. Bei größeren Experimenten (> 50.000 Besucher) ist der Vorteil sogar noch größer, und die Stats Engine kann bis zu 2,5-mal schneller eine Gewinner- oder Verlierervariante ermitteln.

Tests in einem angemessenen Zeitraum abzuschließen, ist eine der schwierigsten Aufgaben beim Verwenden von sequentiellen Tests beim A/B-Testing und bei der Optimierung. Dank unserer umfassenden Datenbank früherer Experimente können wir die Stats Engine basierend auf fundierten Daten anpassen. Da Optimizely von seiner umfassenden Datenbank an Experimenten profitieren kann, können die theoretischen Vorteile von sequentiellen Tests und Kontrollmöglichkeiten für die False-Discovery-Rate ohne zusätzliche Kosten angeboten werden.

* Hinweis zu den Daten: Der getestete Datensatz umfasst Experimente mit durchschnittlich 10.000 Besuchern. Bei Tests mit weniger Besuchern wurden seltener Gewinner- oder Verlierervarianten beim Testen mit festgelegtem Zeitraum und bei Verwendung der Stats Engine ausgegeben. Die Zahl der veränderten Ergebnisse war ähnlich hoch, bei sequentiellen Tests können wir die zeitlichen Einsparungen allerdings schneller erkennen.

Was heißt das für die bis heute ausgeführten Tests?

Wir möchten noch einmal auf Folgendes hinweisen: Auch bei traditionellen statistischen Methoden werden Fehler bis zu einem gewissen Grad ausgeglichen, sofern Sie regelgerecht verwendet wird.

Wenn Sie also einen Stichprobenrechner vor dem Test verwenden und sich an die damit zusammenhängenden Vorgaben halten, sind die Ergebnisse Ihrer bisherigen Tests vermutlich gültig. Falls Sie die Entscheidungen für Ihr Unternehmen anhand von primären Konversionsmesswerten (einem vorab festgelegten Hauptziel pro Experiment) treffen, gilt Ähnliches, da die Differenz zwischen der False-Discovery-Rate und der Falsch-positiv-Rate minimiert wird. Optimierer, die sich beim Testen bisher an alle Vorgaben gehalten haben, bietet die Stats Engine einen intuitiveren Workflow sowie eine einfachere und unkompliziertere Ausführung der Tests.

Uns ist allerdings auch klar, dass sich viele Optimierer vermutlich nicht genau an die Vorgaben des Stichprobenrechners gehalten haben. Glücklicherweise sind viele A/B-Tester, die digitale Experimente ausführen, allerdings auch sehr clever und skeptisch. Möglicherweise haben Sie vor dem Abrufen von Ergebnissen bisher schon immer einen gewissen Zeitraum verstreichen lassen (beispielsweise zwei Geschäftszyklen o. ä.)  und daher automatisch ausreichend Stichprobe gesammelt. Wenn die Ergebnisse ungenau aussahen, haben Sie vielleicht erneut einige Tage gewartet, oder Sie haben die Stichprobengröße immer erneut berechnet, nachdem Sie die verbleibende Ausführungsdauer überprüft hatten. All diese Vorgehensweisen haben das Fehlerrisiko reduziert. Die Fehlerquote liegt vermutlich über 5 %, aber nur mit sehr geringer Wahrscheinlichkeit über 30 %. Diese bisherigen Vorgaben müssen Sie mit der Stats Engine jetzt nicht mehr einhalten. Stattdessen erhalten Sie genaue Angaben zu den erwarteten Fehlerquoten.

Ein kleiner Schritt für Optimizely, aber ein großer Sprung für die Optimierungsindustrie!

Optimizely hat sich zum Ziel gesetzt, seinen Kunden Daten bereitzustellen, auf deren Basis sie statistisch fundierte Entscheidungen treffen können. Vor fünf Jahren haben wir den ersten Schritt in Richtung dieses Ziels gemacht, indem wir einfaches A/B-Testing mit unserem visuellen Editor auch für Nicht-Programmierer zugänglich gemacht haben. Heutzutage basieren zehntausende Organisationen ihre Entscheidungen auf Daten.

Jetzt möchten wir unsere Branche mit der Stats Engine noch einen Schritt weiter bringen, indem wir ein weiteres Hindernis auf dem Weg zur datenbasierten Organisation beseitigen. Dadurch, dass jeder mit der Stats Engine Ergebnisse statistisch analysieren kann, können auch Unternehmen immer mehr und wichtigere Entscheidungen auf Daten stützen.

Das richtige Interpretieren von Statistik legt den Grundstein zum Treffen von datenbasierten Entscheidungen, und wir entwickeln unser statistisches Verfahren immer weiter, um unsere Kunden dabei zu unterstützen. Wir freuen uns auf die Zukunft und hoffen, dass wir die Onlineoptimierung Stück für Stück einfacher und zugänglicher machen können.

Möchten Sie noch mehr über die neue Stats Engine erfahren? Hier die Links zu weiteren Materialien rund um die Stats Engine:

Wir freuen uns auf Ihr Feedback zum Thema Statistik und die neue Stats Engine. Schreiben Sie uns einfach einen Kommentar.