Warum überhaupt testen?

Wenn Unternehmen mit der CrossEngage Customer-Prediction-Plattform (CPP) arbeiten, stellen sie sich selbstverständlich die Frage, welchen Effekt der Einsatz der Plattform und der dort erstellten Predictive Models auf ihr Marketing und auf einzelne Kampagnen und Maßnahmen hat. Diese Frage lässt sich mithilfe verschiedener Testszenarien datenseitig genau beantworten. Nur durch sinnvolle Testdesigns ergibt sich die Möglichkeit zu prüfen, inwieweit eine Optimierungsmaßnahme den gewünschten positiven Effekt erzielt.

Eine Möglichkeit der Bewertung von Optimierungsmaßnahmen (und wahrscheinlich die meist angewandte) ist ein A/B-Test. In diesem Blogbeitrag stellen wir Ihnen vor, warum es sinnvoll ist, zu testen und worauf es ankommt, um einen sauberen A/B-Test für Ihre Marketing-Kampagnen aufzusetzen.

Testen hilft dabei, die richtigen Entscheidungen zu treffen und Sicherheit bei Entscheidungsfindungen zu gewinnen. Immer wenn zum Beispiel eine neue Marketing-Maßnahme eingeführt oder eine bestehende Maßnahme verändert wird (andere Selektionsart, anderes Werbemittel etc.), sollte diese Anpassung durch einen Test validiert werden. Nur so können Sie wirklich statistisch relevante und messbare Aussagen über von Ihnen vorgenommene Veränderungen treffen.

Wie funktioniert ein A/B-Test?

Ein A/B-Test ist eine Testmethode, die es ermöglicht, die Wirksamkeit einer Veränderung festzustellen. Das grundsätzliche Vorgehen ist bei den unterschiedlichen Ausprägungen eines A/B-Tests immer gleich:

ab-test-konzept
Wie funktioniert ein A/B-Test?

Das Gesamtpotential (also alle Kund:innen, die für eine Marketing-Maßnahme infrage kommen) wird zufällig in zwei Gruppen aufgeteilt, die sich darin unterscheiden, welche Marketing-Maßnahme angewandt wird: die zu testende Maßnahme (Testgruppe) vs. die bisherige Maßnahme (Kontrollgruppe). Im Falle der CPP würde man beispielsweise die Selektion einer Kampagne über das bisherige Verfahren mit der Selektion mithilfe von Predictive Models aus der CPP vergleichen.

Der Goldstandard

Grundsätzlich folgt man damit zwei Prinzipien: Kontrolle und Randomisierung („Goldstandard“):

  • Unter Kontrolle versteht man, dass eine Testgruppe mit einer Kontrollgruppe verglichen wird. Erst so lässt sich beantworten, ob sich die Ergebnisse der neuen und der alten Maßnahme unterscheiden.
  • Durch die zufällige Aufteilung (Randomisierung) wird gewährleistet, dass die Gruppen statistisch gleich sind und ein fairer Vergleich möglich ist. Würde man die Gruppeneinteilung nicht randomisiert vornehmen (beispielsweise nach Geschlecht, gerade vs. ungerade Kundennummern, Nord vs. Süd), wären die Ergebnisse nicht repräsentativ, da sich die Testgruppen zumindest in diesem Merkmal zwangsläufig unterscheiden. Gefundene Effekte wären nicht ausschließlich auf den Unterschied in den Maßnahmen zurückzuführen.

Weitere wichtige Hinweise

  • Eine 50/50 Aufteilung des Gesamtpotentials ist nicht zwangsläufig notwendig, es können auch andere Aufteilungsschlüssel wie 70/30 oder 80/20 festgelegt werden. Die einzige Bedingung ist, dass die kleinere der beiden Gruppen ausreichend groß ist, um statistisch signifikante Ergebnisse zu erzielen (weiter unten wird dies genauer erläutert).
  • Der Vergleich der beiden Gruppen kann über unterschiedliche KPIs wie den Umsatz pro Kontakt, die Konversionsrate, Warenkorbgrößen oder den Uplift erfolgen.
  • Ergebnisse, die auf Basis eines einzelnen Tests erzielt werden, bilden nur den kurzfristigen Effekt einer Veränderung ab. Bei Entscheidungen, die eine signifikante Veränderung des Marketingprogramms bedeuten, empfehlen wir einen längeren Testzeitraum, um die mittelfristigen Auswirkungen abschätzen zu können.

Entscheidung für ein konkretes Testdesign

Um in den kommenden Ausführungen die verschiedenen Testdesigns zu beschreiben, gehen wir von folgendem Szenario aus, mit dem wir bei CrossEngage häufig zu tun haben:

Nutzer:innen von CrossEngage selektieren ihre Kund:innen für ihre Marketingkampagnen bisher nach RFM-Kriterien (Recency, Frequency und Monetary Value), die sie selbst oder in Kooperation mit einem Dienstleistungsunternehmen entwickelt haben. Alternativ haben die Nutzer:innen von CrossEngage bereits Prognosemodelle im Einsatz, entweder selbst entwickelt oder mithilfe eines Dienstleisters manuell erstellt. Nun soll verglichen werden, welchen Unterschied Selektionen über Prognosemodelle, die mit CrossEngage erstellt wurden, gegenüber dem bisherigen Vorgehen (Benchmark) haben.

Zunächst wählt man dafür das passende Testdesign. Dieses hängt sowohl von dem Anwendungsfall als auch von den KPIs ab, die man gerne testen möchte. Die folgenden Variationen entsprechen im Grunde dem in Abbildung 1 vorgestellten Aufbau. Je nach Anwendungsfall können aber eine verschiedene Anzahl an Stufen der Kontrolle benötigt werden.

Einfacher A/B-Test:
Vergleich zweier Selektionen für die gleiche Kundengruppe

Bauen die Selektionsverfahren auf der gleichen Kundengruppe auf (zum Beispiel Stamm- oder Reaktivierungskund:innen), kann das folgende Testdesign genutzt und auf mögliche individuelle Bedürfnisse hin angepasst werden:

Einfacher A/B-Test
Einfacher A/B-Test

Das Gesamtpotential wird gemäß dem Aufteilungsschlüssel zufällig in zwei Kundenpotentiale geteilt: auf dem einen Potential (Standard-Verfahren) wird das bisherige Selektionsverfahren genutzt, auf dem anderen Potential wird mithilfe von Prognosemodellen in der CrossEngage-Plattform selektiert. Die Top-Kund:innen der Selektionen gehen dann dem Aufteilungsschlüssel entsprechend (wie vorher definiert nach 50/50, 70/30 etc.) in die Gesamtauflage ein.

Vorteil des einfachen A/B-Tests:

  • Sehr einfaches Testverfahren, um eine Optimierungsmaßnahme zu bewerten.

Nachteile des einfachen A/B-Tests:

  • Nicht für komplizierte Use Cases geeignet.

Überschneidungstest:
Vergleich zweier Selektionen für die gleiche Kundengruppe mit Schnittmenge

Soll bei einem großen Gesamtpotential der zuvor von der Standard-Selektion angesprochene Kundenkern sicher in der Gesamtauflage enthalten sein, kommt ein Überschneidungstest in Frage. Der Unterschied zum einfachen A/B-Test liegt primär darin, dass die Aufteilung auf zwei getrennte Potentiale wegfällt.

Das bisherige Selektionsverfahren („Standard-Verfahren“) und die CrossEngage-Selektion werden beide auf dem Gesamtpotential durchgeführt. Die daraus resultierende Schnittmenge fließt sicher in die Gesamtauflage ein. Die noch freien Plätze in der Gesamtauflage werden dann wieder gemäß eines Aufteilungsschlüssels mit den Top-Kund:innen nach Scores aufgefüllt.

Für die Erfolgsbewertung werden die disjunkten Mengen (Kontakte, die sich nicht in der Schnittmenge befinden) verglichen

ueberschneidungstest
Überschneidungstest

Vorteil des Überschneidungstests:

  • Bereits beim Aufsetzen des Tests ist ersichtlich, wie unterschiedlich die beiden Selektionen sind.
  • Geringeres Risiko, da die durch das etablierte Verfahren als „gute Kund:innen“ bewerteten Kontakte in der Selektion auf jeden Fall enthalten sind.

Nachteil des Überschneidungstests:

  • Die Schnittmenge muss für die Auswertung wieder herausgerechnet werden. Das beeinträchtigt je nach Größe die statistische Aussagekraft des Vergleichs.

There’s More to Come!

In diesem Blogpost haben Sie bereits erfahren, wofür ein A/B-Test gut ist und welches Konzept dahinter steckt. Außerdem haben Sie zwei einfache Testdesigns kennengelernt.

Sie wollen mehr erfahren? Lesen Sie in unserem zweiten Teil dieses Blogartikels wie weitere Testdesigns aussehen. Sie bekommen außerdem konkrete Umsetzungstipps zur Durchführung und Auswertung mit auf den Weg, die in einer praktischen Checkliste zusammengefasst werden. Viel Spaß beim Lesen!