In unserem ersten Blogpost zum Thema A/B-Testing haben Sie bereits erfahren, wofür ein A/B-Test gut ist und welches Konzept dahinter steckt. Außerdem haben Sie zwei einfache Testdesigns kennengelernt.

Im zweiten Teil dieses Blogposts lernen Sie nun zwei weitere Testdesigns kennen und erhalten konkrete Umsetzungstipps zur Durchführung und Auswertung, die in einer praktischen Checkliste zusammengefasst werden. Viel Spaß beim Lesen!

Uplift-Vergleichstest:
Vergleich zweier Selektionen für die gleiche Kundengruppe mit Uplift-Vergleich

Unter Uplift versteht man die zusätzlichen Auswirkungen einer Kampagne oder Maßnahme im Vergleich zu einem vorherigen Status-Quo. Interessiert man sich für den Uplift, den die verschiedenen Selektionsverfahren jeweils einzeln genommen erzeugen (gegenüber dem „Nichtstun“), vergleicht man zusätzlich jedes Selektionsverfahren mit einer eigenen Nullgruppe.

Uplift Vergleichstest
Uplift-Vergleichstest:

Das Vorgehen beginnt wie unter dem einfachen A/B-Test: Das Gesamtpotential wird nach einem Aufteilungsschlüssel zufällig in zwei Potentiale geteilt:

  • auf dem einen Potential wird das bisherige Selektionsverfahren genutzt,
  • auf dem anderen Potential wird über die CPP selektiert.

Pro Selektionsverfahren wird ein Kontaktpool an Top-Kund:innen gebildet. Dieser Top-Kund:innen-Pool enthält dann die nach dem jeweiligen Selektionsverfahren als gut bewerteten Kund:innen. Die Anzahl der Kontakte pro Top-Kund:innen-Pool hängt von dem vorher festgelegten Aufteilungsschlüssel ab.

Aus diesem Pool werden die Kund:innen dann zufällig auf die Test- und Nullgruppe verteilt. Damit muss der Kontaktpool der Top-Kund:innen so groß sein, wie die nachfolgende Testgruppe und Nullgruppe zusammen. Die Testgruppen gehen in die Gesamtauflage ein. Die Nullgruppen werden nicht beworben. So kann pro Selektion der Uplift der Testgruppe gegenüber der Nullgruppe berechnet werden (in relativen oder absoluten Zahlen). Im Anschluss können die Selektionsverfahren nun auch hinsichtlich ihres individuellen Uplifts verglichen werden.

Uplift-Vergleichstests für unterschiedliche Kundengruppen

Sollen Selektionen verglichen werden, die auf unterschiedlichen Kundengruppen aufbauen, wird das gleiche Testdesign angewendet wie beim Uplift-Vergleichstest. So ein Fall kann auftreten, wenn man etwa Churn-Prevention-Maßnahmen (Bestandskund:innen, die von ihrem üblichen Kaufverhalten abweichen) mit klassischen Reaktivierungsmaßnahmen (inaktive Kund:innen) vergleichen möchte.

Dieses Testdesign ist bei unterschiedlichen Gruppen sinnvoll, da KPIs wie Kontaktwert oder Konversionsrate wenig aussagekräftig sind, wenn sich die angesprochenen Kundengruppen unterscheiden. So ist etwa bei einer Churn-Prevention ohnehin von einer höheren Konversionsrate auszugehen als bei einer klassischen Reaktivierung, da beim ersten noch Bestandskund:innen und beim zweiten bereits inaktive Kund:innen angesprochen werden, die per Definition schon unterschiedlich agieren. Ein Vergleich der Raten könnte zu falschen Schlüssen führen.

Uplift-Vergleichstests für unterschiedliche Kundengruppen
Uplift-Vergleichstests für unterschiedliche Kundengruppen

Durchführung eines A/B-Tests

Vor der Umsetzung der Maßnahmen muss neben der Auswahl des richtigen Testdesigns eine Abstimmung über den Aufteilungsschlüssel erfolgen, also darüber, wie groß die Kontaktanzahl bei der Testgruppe vs. Kontrollgruppe und beim Uplift-Test zusätzlich auch bei der Testgruppe vs. Nullgruppe sein soll. Die Gruppen müssen nicht gleich groß sein, es ist auch möglich, die Gruppen nach dem Verhältnis 70/30, 80/20 oder ähnlich aufzuteilen. Beide Gruppen müssen jedoch groß genug sein, um eine Signifikanz zu erzeugen.

Mithilfe des Sample-Size-Calculators kann berechnet werden, wie groß die Kontroll- oder Nullgruppe mindestens sein sollte (die Testgruppe ist üblicherweise mindestens gleich groß oder größer). Um den Sample-Size-Calculator anwenden zu können, müssen folgende Informationen vorliegen:

  • Die Baseline-Konversionsrate der bereits vorhandenen Alternative
  • Der Effekt, der im Test mindestens messbar sein soll

Die Baseline-Konversionsrate ist typischerweise sehr einfach auf Basis vergangener Kampagnen zu bestimmen – sie stellt die durchschnittliche Konversionsrate der letzten (ähnlichen) Kampagnen dar.

Den minimalen Effekt einer neuen Maßnahme richtig einzuschätzen ist deutlich schwerer. Grundsätzlich gilt: Je kleiner der Effekt, desto größer müssen die Gruppen ausfallen. Dabei gibt es keinen allgemein gültigen Richtwert. Es kommt eher darauf an, wie hoch man selbst den Effekt setzt, den man mindestens messen möchte und wie viele Kontakte man außerdem zur Verfügung hat. Was gut ist und was nicht, hat hier auch ein wenig mit Erfahrungswerten und Fingerspitzengefühl zu tun.

Eine Interpretationsmöglichkeit ist: Wenn man mindestens x % zusätzlichen Effekt in einem A/B-Test (unabhängig vom Testdesign) messen möchte, benötigt man Auflage y.

Des Weiteren muss eine randomisierte Teilung des Potentials sichergestellt werden. Dies kann zum Beispiel mithilfe eines Befehls in Excel (“RAND()”), in SQL (“RAND() <= 0.5”) oder mit anderen Methoden in Ihrem CRM, DWH, etc. durchgeführt werden.

Auswertung eines A/B-Tests

Um einen A/B-Test auswerten zu können, müssen zunächst die KPIs (etwa Kontaktwert oder Konversionsrate) für alle Gruppen gesammelt und berechnet werden, sodass die Gruppen miteinander verglichen werden können. Um sicherzugehen, dass es sich um signifikante Unterschiede (und nicht zufällige Schwankungen) zwischen den Ergebnissen der Gruppen handelt, empfiehlt sich die Durchführung eines statistischen Signifikanztests. Bei einem Signifikanztest wird untersucht, ob sich der beobachtete Unterschied zwischen Null- und Testgruppe so stark unterscheidet, dass der Unterschied nicht mehr zufällig passiert sein kann und somit die Wirkung der getesteten Maßnahme statistisch signifikant wird.

Für die Konversionsraten kann ein Chi-Quadrat-Test (Signifikanztest in der Statistik) die Frage nach der Relevanz des gefundenen Unterschieds beantworten. Man benötigt hierzu die Angabe eines Konfidenzniveaus. Aus diesem ergibt sich ein Konfidenzintervall, das einen statistisch berechneten Bereich darstellt, mit welchem man einschätzen kann, ob die Unterschiede in den Ergebnissen tatsächlich eine statistische Relevanz haben oder nur durch Zufall entstanden sind.

Um einen Chi-Quadrat-Test ganz einfach durchführen zu können, empfehlen wir diesen Link. Dort benötigt man jeweils für die Test- und Kontrollgruppe die Anzahl der beworbenen Kund:innen und die Anzahl der Kund:innen aus dieser Gruppe, die im Testzeitraum tatsächlich einen Kauf getätigt haben. Außerdem muss ein Konfidenzniveau vorgegeben werden, das bei Marketing-Fragestellungen üblicherweise bei 90 % oder 95 % liegt.

Die Konfidenzintervalle sind so konstruiert, dass sie mit einer dem Konfidenzniveau entsprechenden Wahrscheinlichkeit “den wahren Wert” enthalten. Beispielsweise liegt bei einem Konfidenzniveau von 95% und einem Konfidenzintervall [8,5% – 22,1%] die tatsächliche Konversionsrate also mit 95-prozentiger Wahrscheinlichkeit zwischen 8,5 % und 22,1 %.

Detailliertere Informationen zu Signifikanztests im Marketing finden Sie hier.

Checkliste für die Durchführung eines A/B-Tests

  1. Definition des Gesamtpotentials (Kundengruppe, die die getestete Maßnahme erhalten soll, zum Beispiel Bestandskund:innen oder ehemalige Kund:innen)
  2. Definition der Maßnahme (Hypothese), die getestet werden soll (zum Beispiel Print-Mailing, für das Kunden über ein Prognosemodell aus der CPP selektiert wurden vs. Standard-Vorgehen)
  3. Definition der KPIs, die später ausgewertet werden sollen (zum Beispiel Umsatz pro Kontakt)
  4. Auswahl eines sinnvollen Testdesigns (siehe oben ausgeführte Alternativen)
  5. Randomisierte Aufteilung des Gesamtpotentials in eine Testgruppe und eine Kontrollgruppe nach einem definierten Verteilungsschlüssel
  6. Durchführung des Tests je nach ausgesuchtem Testdesign
  7. Ggf. Definition der Nullgruppen- und Kontrollgruppengrößen mit dem Sample-Size-Calculator
  8. Ergebnisse auswerten, ggf. auf statistische Signifikanz überprüfen (zum Beispiel mit einem Chi-Quadrat-Test), Learnings aus dem A/B-Test und seinen Ergebnissen ziehen und ggf. weiter iterieren