Zehn häufige Fehler bei A/B-Tests und wie diese vermieden werden

A/B-Tests in Adobe Target bilden das Rückgrat der meisten Programme zur Optimierung des digitalen Marketings. Marketing-Experten können ihren Besuchern und Kunden damit optimierte und zielgerichtete Erlebnisse bereitstellen. In diesem Artikel werden zehn der schwerwiegendsten Fehler beschrieben, die Unternehmen beim Durchführen von A/B-Tests unterlaufen. Darüber hinaus werden Methoden zur Vermeidung dieser Fehler erläutert. So steigert Ihr Unternehmen den ROI durch Tests und kann sich auf die Ergebnisse seiner A/B-Tests verlassen.

Fehler Nr. 1: Die Auswirkungen des Signifikanzniveaus werden nicht berücksichtigt section_55F5577A13C6470BA1417C2B735C6B1D

Wie wahrscheinlich ist es, dass Ihr Test einen signifikanten Unterschied der Konversionsrate zweier Angebote ergibt, wenn dieser tatsächlich nicht vorhanden ist? Diese Information liefert das Signifikanzniveau eines Tests. Solche irreführenden Ergebnisse werden oft als „falsch positiv“ bezeichnet und in der Welt der Statistik „Fehler 1. Art“ genannt (wenn Sie die in der Tat korrekte Nullhypothese fälschlicherweise zurückweisen).

Wenn Sie das Signifikanzniveau eines A/B-Tests angeben, stecken Sie in einem Zwiespalt zwischen Ihrer Annahme, dass ein Erlebnis besser ist als das andere, obwohl das nicht wirklich zutrifft (Fehler 1. Art oder falsch positiv), und der Tatsache, dass Sie keinen statistischen Unterschied zwischen den Erlebnissen sehen, obwohl es tatsächlich einen echten Unterschied gibt (Fehler 2. Art oder falsch negativ). Das Konfidenzniveau wird ermittelt, bevor ein Test durchgeführt wird.

Das Konfidenzintervall, das nach Abschluss eines Tests bestimmt wird, wird von drei Schlüsselfaktoren beeinflusst:

  • Stichprobengröße des Tests
  • Signifikanzniveau
  • Populationsstandardabweichung

Da der Marketer das Signifikanzniveau vor dem Entwerfen des Tests ausgewählt hat und die Populationsvarianz nicht beeinflusst werden kann, ist der einzige „kontrollierbare“ Faktor die Stichprobengröße. Der für ein Konfidenzintervall erforderliche Stichprobenumfang und die daraus resultierende Zeit, die benötigt wird, um diesen Stichprobenumfang zu erreichen, ist eine wichtige Entscheidung, die ein Marketer während des Testentwurfs treffen muss.

Ein weiterer, damit unmittelbar zusammenhängender Begriff, das Konfidenzniveau, entspricht eher dem Ansatz mit dem halbvollen Glas. Anstatt wie das Signifikanzniveau die Wahrscheinlichkeit anzuzeigen, dass Sie ein falsch-positives Ergebnis erhalten, liefert das Konfidenzniveau die Wahrscheinlichkeit, mit der Ihr Test diesen Fehler nicht macht.

Konfidenzniveau und Signifikanzniveau hängen aus folgenden Gründen direkt zusammen:

100-%-Konfidenzniveau = Signifikanzniveau

Marketingexperten verwenden in A/B-Tests häufig ein Konfidenzniveau von 95 %. Gemäß der obigen Gleichung entspricht dies einem Signifikanzniveau von 5 %. Wenn Sie Tests mit einem Konfidenzniveau von 95 % durchführen, heißt dies, dass eine 5-prozentige Chance besteht, dass eine statistisch signifikante Steigerung gefunden wird, während tatsächlich zwischen den Angeboten kein Unterschied vorliegt.

Die folgende Abbildung zeigt, dass mit der Anzahl der durchgeführten Tests die Wahrscheinlichkeit steigt, dass einer der Tests ein falsch-positives Ergebnis liefert. Wenn Sie z. B. 10 Tests mit einem Konfidenzniveau von 95 % durchführen, besteht eine Chance von rund 40 %, dass eines oder mehrere falsch-positive Ergebnisse gefunden werden (angenommen es gibt keine reale Steigerung: Pr(mindestens ein falsch-positives Ergebnis) = 1 - Pr(keine falsch-positiven Ergebnisse) = 1 - 0,95^10 = 40 %).

pitfalls1 image

Im Fall einer Marketing-Organisation sind 95 % in der Regel ein vernünftiger Kompromiss zwischen dem Risiko einer falsch-positiven und einer falsch-negativen Entscheidung.

Es gibt jedoch zwei Situationen, in denen es sich lohnt, sehr genau auf das Konfidenzniveau und seine Auswirkungen auf die Testergebnisse zu achten: die Segmentierung nach dem Test und das Testen mehrerer Angebote.

  • Segmentierung nach dem Test: Marketingexperten bearbeiten die Ergebnisse eines Tests häufig basierend auf Besuchersegmenten, nachdem der A/B-Test beendet ist. Gängige Segmente sind der Browsertyp, der Gerätetyp, geografische Regionen, Tageszeit und neue Besucher im Vergleich zu zurückkehrenden Besuchern. Diese Praxis der Segmentierung nach dem Test liefert ausgezeichnete Einblicke in Besuchersegmente. Im Gegenzug können Marketing-Fachleute diese Erkenntnisse nutzen, um zielgerichtetere, relevantere und differenziertere Inhalte zu erstellen.

    Wenn kein realer Unterschied der Konversionsrate vorliegt, entspricht die Wahrscheinlichkeit eines falsch-positiven Ergebnisses bei jedem Test eines Segments dem Signifikanzniveau. Und, wie bereits erwähnt, steigt mit der Anzahl der durchgeführten Tests die Wahrscheinlichkeit, mindestens ein falsch-positives Testergebnis zu erhalten. Im Grunde entspricht jedes nach dem Test erstellte Segment einem separaten Test. Mit einem Signifikanzniveau von 5 % erhalten Sie im Durchschnitt jedes Mal ein falsch-positives Ergebnis, sobald Sie 20 nach dem Test erstellte Segmente untersuchen. Die obige Abbildung zeigt, wie die Wahrscheinlichkeit ansteigt.

    Die Wahrscheinlichkeit, dass Sie mindestens ein falsch-positives Ergebnis unter diesen Tests erhalten, ist größer, je mehr Tests Sie durchführen. Im Wesentlichen stellt jedes Post-Test-Segment einen separaten Test dar, was die Wahrscheinlichkeit eines falschen Positivs erhöht. Dieser Anstieg kann noch deutlicher ausfallen, wenn die Segmente korreliert werden.

    Sollten Sie daher keine Segmentierung nach dem Test durchführen? Nein, nach dem Test erstellte Segmente sind wertvoll. Um dieses kumulative Problem mit falsch-positiven Ergebnissen bei der Segmentierung nach dem Test zu vermeiden, sollten Sie ein Segment nach der Identifizierung stattdessen in einem neuen Test testen. Alternativ können Sie die im Folgenden vorgestellte Bonferroni-Korrektur anwenden.

  • Testen mehrerer Angebote: Marketingexperten testen häufig mehr als zwei Angebote (oder Erlebnisse) gegeneinander. Aus diesem Grund gibt es Lösungen für A/B-Tests, die als A/B/n-Tests bezeichnet werden, wobei n für die Anzahl der gleichzeitig getesteten Angebote steht.

    Es ist wichtig, zu beachten, dass jedes getestete Angebot eine Falsch-Positiv-Rate in der Höhe des oben beschriebenen Signifikanzniveaus besitzt. Auch hierbei werden im Grunde mehrere Tests durchgeführt, wenn mehrere Angebote in einer einzigen Testumgebung miteinander verglichen werden. Wenn Sie z. B. fünf Angebote in einem A/B/C/D/E-Test vergleichen, bilden Sie damit vier Vergleiche: Kontrolle mit B, Kontrolle mit C, Kontrolle mit D, Kontrolle mit E. Mit einem Konfidenzniveau von 95 % ergibt sich anstelle einer 5-prozentigen Wahrscheinlichkeit für ein falsch-positives Ergebnis tatsächlich eine Wahrscheinlichkeit von 18,5 %.

    Um Ihr Konfidenzniveau insgesamt bei 95 % zu halten und dieses Problem zu vermeiden, können Sie die Bonferroni-Korrektur anwenden. Mithilfe dieser Korrektur wird das Signifikanzniveau einfach durch die Anzahl der Vergleiche geteilt, um das benötigte Signifikanzniveau zu erhalten, mit dem Sie ein Konfidenzniveau von 95 % erzielen.

    Wenn die Bonferroni-Korrektur auf das obige Beispiel angewendet wird, verwenden Sie ein Signifikanzniveau von 5 % / 4 = 1,25 %, was einem Konfidenzniveau von 98,75 % für einen einzelnen Test entspricht (100 % - 1,25 % = 98,75 %). Durch diese Anpassung wird das effektive Konfidenzniveau bei 95 % gehalten, wenn Sie, wie in unserem Beispiel, vier Tests durchführen.

Fehler Nr. 2: Gewinner von Tests mehrerer Angebote werden bestimmt, obwohl kein statistisch signifikanter Unterschied vorhanden ist section_FA83977C71DB4F69B3D438AF850EF3B6

Beim Testen mehrerer Angebote erklären Marketingexperten häufig das Angebot mit der höchsten Steigerung zum Gewinner des Tests, obwohl es keinen statistisch signifikanten Unterschied zwischen dem Gewinner und dem Zweitplatzierten gibt. Diese Situation tritt auf, wenn der Unterschied zwischen den Alternativen kleiner ist als der Unterschied zwischen den Alternativen und dem Kontrollelement. Die folgende Abbildung zeigt dieses Konzept, wobei die schwarzen Fehlerbalken Konfidenzintervalle mit 95 % Steigerung darstellen. Die tatsächliche Steigerung der einzelnen Angebote relativ zum Kontrollangebot liegt mit einer Wahrscheinlichkeit von 95 % innerhalb des Konfidenzintervalls - dem durch die Fehlerbalken angezeigten Bereich.

pitfalls2 Bild

Bei den Angeboten A und B wurde im Test die höchste Steigerung beobachtet, und es wäre unwahrscheinlich, dass Angebot C diese Angebote in einem zukünftigen Test übertreffen könnte, da das Konfidenzintervall von C sich nicht mit den Konfidenzintervallen von A oder B überschneidet. Aber auch wenn Angebot A im Test die höchste Steigerung aufweist, ist es dennoch möglich, dass Angebot B in einem zukünftigen Test eine bessere Leistung zeigt, weil sich hier die Konfidenzintervalle überschneiden.

Im Grunde sollten hier beide Angebote, A und B, als Gewinner des Tests angesehen werden.

Es ist in der Regel nicht umsetzbar, den Test lang genug auszuführen, um die wahre relative Leistung der Alternativen zu erkennen, und häufig ist der Leistungsunterschied zwischen den Alternativen zu gering, um sich substantiell auf die Konversionsrate auszuwirken. In solchen Fällen können Sie das Ergebnis als ein Unentschieden interpretieren und anhand anderer Überlegungen, wie die Strategie oder die Ausrichtung an anderen Elementen der Seite, bestimmen, welches Angebot implementiert wird. Bei mehreren Tests müssen Sie offen für die Idee sein, dass es mehr als einen Gewinner gibt, was manchmal die Möglichkeiten für die Entwicklung Ihrer Website beträchtlich steigert.

Wenn Sie das Angebot mit der höchsten Konversionsrate ermitteln möchten, müssen Sie jedes Angebot mit jedem anderen vergleichen. Im obigen Beispiel haben Sie n = 5 Angebote. Sie benötigen also n(n-1) / 2 Vergleiche, d. h. 5 * (5-1) / 2 = 10 Vergleiche. In diesem Fall erfordert die Bonferroni-Korrektur ein Signifikanzniveau des Tests von 5 % / 10 = 0,5 %, was einem Konfidenzniveau von 99,5 % entspricht. Für ein so hohes Konfidenzniveau kann es jedoch erforderlich sein, dass Sie den Test über einen unverhältnismäßig langen Zeitraum durchführen müssen.

Fehler Nr. 3: Auswirkungen der Teststärke werden nicht berücksichtigt section_0D517079B7D547CCAA75F80981CBE12A

Die statistische Aussagekraft ist die Wahrscheinlichkeit, dass ein Test einen echten Unterschied in der Konversionsrate zwischen den Angeboten feststellt. Aufgrund der zufälligen – in der Statistik auch als „stochastisch“ bezeichneten – Natur von Konversionsereignissen kann es vorkommen, dass ein Test keinen statistisch signifikanten Unterschied zeigt, auch wenn letztendlich ein realer Unterschied bei den Konversionsraten zweier Angebote vorhanden ist. Sie können es Pech oder Zufall nennen. Wenn ein realer Unterschied der Konversionsrate nicht erkannt wird, wird dies als falsch-negatives Ergebnis oder als Fehler der 2. Art bezeichnet.

Es gibt zwei Schlüsselfaktoren, die die Leistungsfähigkeit eines Tests festlegen. Der erste ist die Stichprobenumfang, d. h. die Anzahl der Besucher, die in den Test einbezogen werden. Der zweite ist die Größenordnung des Unterschieds in der Konversionsrate, die der Test ermitteln soll. Vielleicht ist dies intuitiv, aber wenn Sie nur große Unterschiede bei der Konversionsrate erkennen möchten, besteht eine höhere Wahrscheinlichkeit, dass der Test tatsächlich so große Unterschiede erkennt. Je kleiner also der Unterschied ist, den Sie feststellen möchten, desto größer muss der Stichprobenumfang sein und desto mehr Zeit benötigen Sie, um den größeren Stichprobenumfang zu erhalten.

Die Marketingexperten von heute erzielen aus einer beachtlichen Anzahl an Tests keine optimale Leistung. Sie verwenden nämlich zu kleine Stichproben. Das führt dazu, dass sie eine kleine Chance haben, richtig-positive Ergebnisse zu erkennen, selbst wenn tatsächlich ein substanzieller Unterschied der Konversionsrate vorhanden ist. Wenn Sie ständig zu schwache Tests ausführen, kann die Anzahl der falsch-positiven Ergebnisse im Bereich oder sogar über der Anzahl der richtig-positiven Ergebnisse liegen. Dies führt häufig zur Implementierung neutraler Änderungen an einer Site (Zeitverschwendung) oder zu Änderungen, die die Konversionsraten sogar verringern.

pitfalls3 Bild

Damit Ihre Tests die gewünschte Leistung bringen, beachten Sie, dass zu einem gängigen Standard für einen leistungsstarken Test ein Konfidenzniveau von 95 % und eine Teststärke von 80 % gehören. Ein solcher Test bietet eine Wahrscheinlichkeit von 95 %, dass es nicht zu falsch-positiven Ergebnissen kommt, und eine Wahrscheinlichkeit von 80 %, dass falsch-negative Ergebnisse ausbleiben.

Fehler Nr. 4: Verwendung von einseitigen Tests section_8BB136D1DD6341FA9772F4C31E9AA37C

Bei einseitigen Tests wird ein kleinerer beobachteter Unterschied der Konversionsraten von Angeboten benötigt, um einen Gewinner für ein bestimmtes Signifikanzniveau zu bestimmen. Diese Art von Tests erscheint verlockend, da Gewinner schneller und häufiger als mit zweiseitigen Tests bestimmt werden können. Aber alles hat seinen Preis, auch einseitige Tests.

In einem einseitigen Test wird getestet, ob Angebot B besser ist als Angebot A. Die Richtung des Tests muss vor Testbeginn (a priori) festgelegt werden. Das heißt, dass Sie entscheiden müssen, ob Sie testen möchten, ob B besser als A oder A besser als B ist, bevor Sie den Test starten. Wenn Sie jedoch die Ergebnisse des A/B-Tests nehmen und feststellen, dass B besser als A ist und danach beschließen, einen einseitigen Test durchzuführen, um zu sehen, ob dieser Unterschied statistisch signifikant ist, dann verstoßen Sie gegen die dem statistischen Test zugrunde liegenden Annahmen. Dies bedeutet, dass Ihre Konfidenzintervalle unzuverlässig sind und dass der Test eine höhere Falsch-Positiv-Rate liefert, als erwartet.

Sie können einen einseitigen Test so betrachten, dass Sie einen Antrag in einem Prozess einem Richter vorlegen, der bereits ein Urteil gefällt hat. In einem einseitigen Test haben Sie bereits entschieden, welches Angebot gewinnen wird, und weisen dies jetzt nach, anstatt allen Erlebnissen die gleiche Chance zu geben, zum Gewinner zu werden. Einseitige Tests sollten nur in seltenen Situationen verwendet werden, in denen Sie sich ausschließlich dafür interessieren, ob ein Angebot besser als das andere ist und nicht umgekehrt. Um das Problem des einseitigen Tests zu vermeiden, sollten Sie eine A/B-Test-Lösung nutzen, die immer zweiseitige Tests nutzt, z. B. Adobe Target.

Fehler Nr. 5: Überwachen von Tests section_EA42F8D5967B439284D863C46706A1BA

Marketingexperten überwachen häufig A/B-Tests bis der Test ein signifikantes Ergebnis ermittelt hat. Warum weitertesten, wenn die statistische Signifikanz erreicht wurde?

Leider ist die Sache nicht so einfach. Auch wenn ich Ihnen keinen Strich durch die Rechnung machen möchte, ist es aber so, dass sich die Überwachung der Ergebnisse negativ auf die effektive statistische Signifikanz des Tests auswirkt. Sie sorgt für einen starken Anstieg der Wahrscheinlichkeit von falsch-positiven Ergebnissen, was zur Folge hat, dass die Konfidenzintervalle unzuverlässig werden.

Das mag verwirrend klingen. Es klingt so, als würde das einfache Betrachten der Ergebnisse in der Mitte des Tests dafür sorgen, dass diese ihre statistische Signifikanz verlieren. Das trifft es nicht genau. Im folgenden Beispiel wird erklärt, warum.

Angenommen Sie simulieren 10.000 Konversionsereignisse für zwei Angebote, die beide eine Konversionsrate von 10 % besitzen. Da die Konversionsraten gleich sind, sollten Sie keinen Unterschied der Konversionssteigerung feststellen, wenn Sie die beiden Angebote gegeneinander testen. Bei der Verwendung eines Konfidenzintervalls von 95 % ergibt der Test die erwartete Falsch-Positiv-Rate von 5 %, nachdem alle 10.000 Beobachtungen erfasst sind. Wenn wir 100 dieser Tests durchführen, erhalten wir daher durchschnittlich fünf falsch-positive Ergebnisse (tatsächlich sind in diesem Beispiel alle positiven Ergebnisse falsch, weil es keinen Unterschied zwischen den Konversionsraten der beiden Angebote gibt). Wenn wir den Test jedoch während der Ausführung 10-mal auswerten – jeweils nach 1.000 Beobachtungen –, stellt sich heraus, dass die Falsch-Positiv-Rate auf 16 % ansteigt. Die Überwachung des Tests hat das Risiko falsch-positiver Ergebnisse mehr als verdreifacht! Wie kann das sein?

Um zu verstehen, warum dies passiert, müssen wir die verschiedenen Aktionen berücksichtigen, die durchgeführt werden, wenn ein signifikantes Ergebnis entdeckt wird bzw. wenn es nicht entdeckt wird. Wenn ein statistisch signifikantes Ergebnis entdeckt wird, wird der Test beendet und ein Gewinner bestimmt. Wenn das Ergebnis jedoch nicht statistisch signifikant ist, lassen wir den Test weiterlaufen. Diese Situation favorisiert das positive Ergebnis enorm und verfälscht daher das effektive Signifikanzniveau des Tests.

Zur Vermeidung dieses Problems sollten Sie einen angemessenen Zeitraum für die Durchführung des Tests festlegen, bevor Sie den Test starten. Es ist zwar gut, die Testergebnisse während des Tests im Auge zu behalten, um sicherzustellen, dass der Test korrekt implementiert wurde. Ziehen Sie daraus jedoch keine Schlussfolgerungen und stoppen Sie den Test nicht, bevor die erforderliche Anzahl von Besucherinnen und Besuchern erreicht wurde. Mit anderen Worten: Nicht gucken!

Fehler Nr. 6. Vorzeitiges Beenden von Tests section_DF01A97275E44CA5859D825E0DE2F49F

Es ist verlockend, einen Test zu stoppen, wenn eines der Angebote in den ersten Tagen des Tests besser oder schlechter abschneidet als alle anderen. Wenn jedoch die Anzahl der Beobachtungen gering ist, dann ist die Wahrscheinlichkeit hoch, dass eine positive oder negative Steigerung zufällig beobachtet wurde, da die Konversionsrate als Durchschnitt einer geringen Besucherzahl ermittelt wurde. Wenn der Test mehr Datenpunkte erfasst, nähern sich die Konversionsraten ihren eigentlichen langfristigen Werten an.

Die folgende Abbildung zeigt fünf Angebote, die dieselben langfristigen Konversionsraten besitzen. Angebot B hat für die ersten 2.000 Besucher eine geringe Konversionsrate und es dauert lange, bis die geschätzte Konversionsrate zur tatsächlichen langfristigen Rate zurückkehrt.

pitfalls4 Bild

Dieses Phänomen wird als Regression zum Mittelwert bezeichnet und kann zu Enttäuschungen führen, wenn ein Angebot, das an den ersten Tagen des Tests eine gute Leistung zeigt, dieses Leistungsniveau letztendlich nicht halten kann. Es kann auch zu Umsatzverlusten führen, wenn ein gutes Angebot nicht implementiert wird, weil es zufälligerweise während der ersten Tage des Tests eine schlechte Leistung gebracht hat.

Wie bei den Problemen mit der Überwachung Ihres Tests ist es auch hier am besten, wenn Sie eine angemessene Anzahl von Besuchenden ermitteln, bevor Sie den Test durchführen, und den Test dann laufen lassen, bis dieser Anzahl von Besuchenden die Angebote bereitgestellt wurden.

Fehler Nr. 7: Die Traffic-Zuordnung wird während des Testzeitraums verändert allocation

Wir empfehlen, die prozentuale Traffic-Zuordnung während des Testzeitraums nicht zu ändern, da dies Ihre Testergebnisse verfälschen kann, bis sich die Daten normalisieren.

Angenommen, Sie verfügen über einen A/B-Test, in dem 80 % des Traffics Erlebnis A (Kontrolle) und 20 % des Traffics Erlebnis B zugeschrieben wird. Während des Testzeitraums ändern Sie die Zuordnung für jedes Erlebnis auf 50 %. Einige Tage später ändern Sie die Traffic-Zuordnung und schreiben Erlebnis B 100 % zu.

Wie werden in diesem Szenario Benutzern Erlebnisse zugeschrieben?

Wenn Sie die Zuordnungsaufteilung für Erlebnis B manuell auf 100 % ändern, bleiben Besucher, die ursprünglich Erlebnis A (Kontrolle) zugewiesen waren, im ursprünglich zugewiesenen Erlebnis A (Erlebnis A). Die Änderung bei der Traffic-Zuordnung betrifft nur neue Besucher.

Wenn Sie die Prozentsätze ändern oder den Besucherfluss zu den einzelnen Erlebnissen erheblich verändern möchten, empfehlen wir, eine neue Aktivität zu erstellen oder die Aktivität zu kopieren und dann die Traffic-Zuordnungsprozentsätze zu bearbeiten.

Wenn Sie die Prozentsätze für verschiedene Erlebnisse während des Testzeitraums ändern, dauert es einige Tage, bis sich die Daten normalisieren, insbesondere wenn viele Kaufende wiederkehrende Besuchende sind.

Ein anderes Beispiel: Wenn die Traffic-Zuordnung Ihres A/B-Tests im Verhältnis 50/50 aufgeteilt ist und Sie die Aufteilung in 80/20 ändern, können die Ergebnisse in den ersten Tagen verzerrt aussehen. Wenn die durchschnittliche Konversionsdauer hoch ist, d. h. die Durchführung eines Kaufs mehrere Stunden oder sogar Tage in Anspruch nehmen kann, können sich diese verzögerten Konversionen auf die Berichte auswirken. Daher werden für das erste Erlebnis, bei dem der Wert von 50 % in 80 % geändert wurde und die durchschnittliche Konversionszeit 2 Tage beträgt, am ersten Tag des Tests nur Besucher von 50 % der Zielgruppe einkaufen, obwohl an dem Tag 80 % der Zielgruppe das Erlebnis aufrufen. Daher scheint es so, als wäre die Konversionsrate stark gesunken, doch normalisiert sich dies wieder, wenn die 80 % der Besucher nach 2 Tagen einen Kauf getätigt haben.

Fehler Nr. 8: Der Neuigkeitseffekt wird nicht berücksichtigt section_90F0D24C40294A8F801B1A6D6DEF9003

Wenn ein Test nicht ausreichend lange läuft, können weitere unerwartete Effekte auftreten. Diesmal handelt es sich nicht um ein statistisches Problem, sondern um eine einfache Reaktion der Besucher auf eine Änderung. Wenn Sie einen bewährten Teil Ihrer Website ändern, kann es passieren, dass zurückkehrende Besucher anfangs weniger umfangreich mit dem neuen Angebot interagieren, weil die üblichen Abläufe geändert wurden. Dies kann dazu führen, dass ein sehr gutes neues Angebot so lange eine weniger gute Leistung bringt, bis sich die wiederkehrenden Besucherinnen und Besucher damit vertraut gemacht haben. Im Hinblick auf die langfristigen Steigerungen, die ein sehr gutes Angebot liefern wird, ist dies aber ein geringer Preis.

Um festzustellen, ob das neue Angebot aufgrund eines Neuigkeitseffekts leistungsschwach ist oder weil es wirklich schlecht ist, können Sie Ihre Besucherinnen und Besucher in neue und wiederkehrende Besucher segmentieren und die Konversionsraten vergleichen. Wenn es sich lediglich um den Neuigkeitseffekt handelt, wird das neue Angebot mit den neuen Besucherinnen und Besuchern gewinnen. Irgendwann wird das Angebot auch bei wiederkehrenden Benutzerinnen und Benutzern gewinnen, nämlich sobald sich diese an die Änderungen gewöhnt haben.

Der Neuigkeitseffekt kann auch umgekehrt wirken. Besucher reagieren häufig positiv auf eine Änderungen, nur weil diese etwas Neues bringt. Nach einer Weile, wenn der neue Inhalt auf die Besucher alt und weniger spannend wirkt, geht die Konversionsrate zurück. Dieser Effekt lässt sich schwerer identifizieren, kann aber durch eine sorgfältige Überwachung der Änderungen der Konversionsrate erkannt werden.

Fehler Nr. 9: Es werden keine Unterschiede im Betrachtungszeitraum berücksichtigt section_B166731B5BEE4E578816E351ECDEA992

Der Betrachtungszeitraum ist der Zeitraum ab dem die A/B-Test-Lösung ein Angebot einer Besucherin oder einem Besucher präsentiert bis zu deren oder dessen Konversion. Dieser kann bei Angeboten wichtig sein, wo der Betrachtungszeitraum eine große Rolle spielt, z. B. Angebote mit einem Stichtag, wie etwa „Zeitlich befristete Angebote. Bis diesen Sonntag käuflich erhältlich.“

Solche Angebote verleiten Besucher dazu, früher zu konvertieren und werden favorisiert, wenn der Test direkt nach dem Ablauf des Angebots gestoppt wird, da das Alternativangebot möglicherweise länger läuft oder nicht befristet ist und daher einen längeren Betrachtungszeitraum besitzt. Die Alternative würde im Zeitraum nach dem Ende des Tests Konversionen erhalten, wenn Sie den Test jedoch nach dem Stichtag beenden, werden weitere Konversionen nicht in Bezug zur Konversionsrate der Tests gesetzt.

Die folgende Abbildung zeigt zwei Angebote, die zwei unterschiedliche Besucher an einem Sonntag zur selben Zeit sehen. Der Betrachtungszeitraum für Angebot A ist kurz und der Besucher konvertiert zu einem späteren Zeitpunkt desselben Tages. Angebot B besitzt jedoch einen längeren Betrachtungszeitraum und der Besucher, der Angebot B gesehen hat, lässt sich das Angebot ein wenig durch den Kopf gehen und konvertiert dann am darauffolgenden Montag. Wenn Sie den Test Sonntagnacht beenden, wird die zu Angebot A gehörende Konversion in der Konversionsmetrik von Angebot A berücksichtigt, wohingegen die zu Angebot B gehörende Konversion in der Konversionsmetrik von Angebot B nicht berücksichtigt wird. Dies stellt für Angebot B einen signifikanten Nachteil dar.

pitfalls5 Bild

Um dieses Problem zu vermeiden, müssen Sie Besuchern, die das Angebot gesehen haben, ausreichend Zeit für die Konversion lassen, bevor Sie den Test beenden. So erhalten Sie einen fairen Vergleich der Angebote.

Fehler Nr. 10: Es werden Metriken verwendet, die keine Geschäftsziele abbilden section_F0CD6DC7993B4A6F9BEEBB31CD1D9BEE

Marketingexperten sind möglicherweise versucht, im oberen Trichter Konversionsmetriken mit hohem Traffic und geringer Varianz zu verwenden, wie die Clickthrough-Rate (CTR), um schneller eine passende Anzahl von Testkonversionen zu erzielen. Sie müssen sich jedoch sorgfältig überlegen, ob die CTR eine angemessene Vertreterin für dass Geschäftsziel ist, das Sie erreichen möchten. Angebote mit höheren CTRs können leicht zu geringerem Umsatz führen. Dies kann passieren, wenn Angebote Besucherinnen und Besucher mit geringerer Kaufneigung anziehen oder wenn das Angebot als solches zu geringerem Umsatz führt, weil es z. B. rabattiert ist.

pitfalls6 Bild

Sehen Sie sich das folgende Beispiel an. Das Skiangebot generiert eine höhere CTR als das Radsportangebot. Da die Besucherinnen und Besucher jedoch durchschnittlich für das Radsportangebot mehr Geld ausgeben, ist der erwartete Umsatz höher, wenn einer Person das Radsportangebot präsentiert wird. Ein A/B-Test mit der CTR als Metrik würde daher ein Angebot auswählen, das den Umsatz nicht maximiert, was das grundlegende Geschäftsziel sein könnte.

pitfalls7 Bild

Um dieses Problem zu vermeiden, müssen Sie Ihre Geschäftsmetriken sorgfältig überwachen und die Auswirkungen von Angeboten erkennen – oder besser noch möglichst eine Metrik verwenden, die Ihren Geschäftszielen näher kommt.

Fazit: Erfolgreiche A/B-Tests durch Erkennen und Umgehen der Fehler section_54D33248163A481EBD4421A786FE2B15

Nachdem Sie jetzt die gängigen Fallstricke der A/B-Tests kennen, können Sie hoffentlich erkennen, wann und wo Sie diesen möglicherweise zum Opfer gefallen sind. Wir hoffen außerdem, dass wir Ihnen mehr Wissen zu einigen der Statistik- und Wahrscheinlichkeitskonzepten im Zusammenhang mit A/B-Tests vermitteln konnten, die sich häufig wie eine Domain für Mathematiker anfühlen.

Anhand der folgenden Schritte können Sie diese Fallen vermeiden und bessere Ergebnisse aus Ihren A/B-Tests erzielen:

  • Überlegen Sie sorgfältig auf der Grundlage relevanter Geschäftsziele, welche die beste Metrik für den Test ist.
  • Legen Sie vor dem Teststart ein Konfidenzniveau fest und beachten Sie diesen Grenzwert, wenn Sie nach dem Ende des Tests die Ergebnisse auswerten.
  • Berechnen Sie die Stichprobengröße (Anzahl der Besucher), bevor der Test gestartet wird.
  • Warten Sie bis die berechnete Stichprobengröße erreicht wurde, bevor Sie den Test stoppen.
  • Passen Sie das Konfidenzniveau an, wenn Sie nach dem Test segmentieren oder mehr als eine Alternative bewerten, indem Sie z. B. die Bonferroni-Korrektur verwenden.
recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654