Predictive Models im Marketing und CRM

Predictive Models können E-Commerce Brands dabei helfen, die eigenen Kund:innen besser zu verstehen, eine tiefere Ebene der Kundenpersonalisierung zu erreichen und allgemein kundenzentrierter zu handeln. Dabei werden statistische Methoden und künstliche Intelligenz genutzt, um zukünftiges Kundenverhalten zu prognostizieren.

Um diese Vorteile zu nutzen, benötigt man entweder eigene Data Scientists mit Domänenwissen, hochspezialisierte Agenturen oder Beratungsfirmen oder eine Automated-Machine-Learning-Plattform wie zum Beispiel die CrossEngage Customer Prediction Platform (CPP).

Sollten Sie nun eigene Predictive Models erstellt haben, kommt zwangsläufig irgendwann die Frage auf, wie man die Performance dieser Modelle untersucht und bewertet. Welche KPIs sind nötig, um die statistische Robustheit der Modelle zu bewerten?

Ist Ihr Predictive Model robust genug?

Zu entscheiden, ob das sorgfältig erstellte Predictive Model statistisch robust und auch wirklich einsatzbereit ist, kann eine sehr zermürbende Angelegenheit sein. Leider findet man erst nach vielen zahlreichen Vorbereitungsschritten heraus, ob das Modell wirklich zusätzlichen Nutzen generieren kann.

Es gibt jedoch einige Anzeichen dafür, dass es Probleme bei einem Predictive Model geben kann. Diese Anzeichen sind leicht zu erkennen, wenn Sie wissen, worauf Sie achten müssen, und sollten daher vor dem Einsatz eines Modells beachtet werden.

Doch warum sollten Sie auf mich hören? In meiner üblichen Tätigkeit bin ich der CAIO (Chief AI Officer) und Mitbegründer von CrossEngage. Mit der Customer-Prediction-Plattform unterstützen wir unsere Kunden bei der Prüfung der in der Plattform automatisch generierten Modelle, um ihnen bei der Entscheidung zu helfen, ob diese Modelle für den jeweiligen Use Case zweckdienlich sind.

Automatisierte Modellkuratierung

Aus diesem Grund hat unser Team in den letzten sechs Jahren Tausende von Vorhersagemodellen untersucht. Wir haben ein Feature in unsere Plattform eingebaut, das automatisch bei jedem erstellten Modell einen ersten Check durchführt. Wir nennen diesen Check die automatisierte Modellkuratierung.

automatisierte-modellkuratierung

Wir haben bei der Entwicklung dieses Features unsere langjährigen Erfahrungen mit der Überprüfung von Modellmetriken mit einfließen lassen. Wir sind Hunderte Fälle durchgegangen, bei denen wir das Ergebnis eines Einsatzes des Modells bereits kannten. In Übereinstimmung mit Forschungsergebnissen aus der Data Science fanden wir heraus, dass es zwei Dinge gibt, die Sie in Ihrem Vorhersagemodell auf jeden Fall vermeiden sollten, da Modelle mit diesen Problemen dazu neigen, im produktiven Einsatz mit unbekannten Daten zu versagen:

false-friends

„False Friends“

Auch bekannt als „Target Leakage”. Dabei handelt es sich um Daten, die nicht zum Trainingsprozess des Modells gehören, aber dennoch Teil des Prozesses sind. Dies geschieht, wenn Sie Ihr Predictive Model auf einem Datensatz trainieren, der Informationen enthält, die zum Zeitpunkt der Vorhersage nicht verfügbar wären.

overfitting

„Overfitting“

Overfitting beschreibt ein Modell, das die Trainingsdaten zu gut modelliert. Dies geschieht, wenn ein Modell die Details und das Rauschen in den Trainingsdaten in einem Maße erlernt, dass es die Leistung des Modells auf neuen Daten negativ beeinflusst. In der Wettervorhersage zum Beispiel würde ein „overfittetes“ Modell hervorragend das Wetter von gestern voraussagen, aber überhaupt nicht in der Lage sein, das Wetter von morgen vorherzusagen.

„False Friends“ und „Overfitting“ erkennen

Wir wollten uns also auf die Metriken konzentrieren, die entweder auf „False Friends“ oder Overfitting hindeuten könnten. Diese Kriterien, die wir ermittelt haben, sind notwendige, aber nicht hinreichende Kriterien für ein gutes Modell. Diese Kurationsmetriken sind daher als Warnsignal gedacht: Wenn eine dieser Metriken von ihrem Soll abweicht, ist das ein deutliches Zeichen dafür, dass etwas nicht stimmt und dass dieses Modell nicht ohne einen sehr gründlichen Prüfprozess eingesetzt werden sollte.

Im Folgenden zeigen und erläutern wir die Top 4 Robustness Checks. Bitte bedenken Sie, dass sich diese Metriken auf Modelle aus dem Bereich des überwachten Machine Learnings beziehen, die versuchen, eine kategoriale Variable vorherzusagen, nämlich ob ein Ereignis (z. B. ein Kauf) stattfinden wird oder nicht.

purchases

1. Die Anzahl der positiven Ereignisse im Modelltraining

Um genaue Vorhersagen zu erhalten, muss die Anzahl der positiven Ereignisse (z. B. Käufe) im Modell groß genug sein. Eine nicht ausreichende Anzahl an Daten würden unweigerlich zu einem Overfitting führen. In unserem Anwendungsfall, bei dem es um die Vorhersage des zukünftigen Kaufverhaltens auf Basis der Customer Journey einer Person geht, haben wir festgestellt, dass es mindestens 1.000 positive Fälle (Käufe) geben muss, damit ein Modell überhaupt gültig ist. Wir nennen diese Metrik erst dann “gut”, wenn es mindestens 5.000 positive Fälle gibt. Wir haben auch herausgefunden, dass typischerweise keine substanzielle Steigerung der Modellqualität bei mehr als 15.000 positiven Fällen erfolgt.

2. Der AUC-Wert im Trainingsdatensatz

Wir haben uns für die sehr vielseitige Metrik „Area under the Curve“ (AUC) zur Erfassung der Vorhersagegenauigkeit unserer (klassifizierenden) Modelle entschieden, die zwischen Klassen (z. B. Kauf oder Nicht-Kauf) unterscheiden. Je höher der AUC-Wert, desto besser ist die Leistung des Modells bei der Unterscheidung der positiven und negativen Klassen (Kauf oder Nicht-Kauf).

Ein Vorteil dieser Metrik ist, dass sie unabhängig von der zugrundeliegenden Verteilung der positiven/negativen Fälle funktioniert, da sie keinen festen Trennwert annimmt. Eine gute Erläuterung dazu finden Sie hier.

Wir haben beobachtet, dass alle AUC-Werte größer als 0,55 zwar nicht großartig sind, aber in der Praxis dennoch einen gewissen Mehrwert liefern können. Damit ein Modell jedoch gut ist, sollte der AUC-Wert größer als 0,70 sein. Außerdem haben wir herausgefunden, dass es kein gutes Zeichen ist, wenn ein Modell einen sehr hohen AUC-Wert hat – dazu haben wir ein Sprichwort in unserem Data-Science-Team: „Wenn ein Modell zu gut aussieht, um wahr zu sein, dann ist es das meistens nicht“.

Deshalb bewerten wir alle Modelle kritisch, die einen AUC-Wert von mehr als 0,92 haben, und verwenden keine Modelle, die einen AUC-Wert von mehr als 0,99 haben, weil das fast immer bedeutet, dass es sich hier in den Daten um „False Friends“ handelt.

auc-training-set
auc-training-set

2. Der AUC-Wert im Trainingsdatensatz

Wir haben uns für die sehr vielseitige Metrik „Area under the Curve“ (AUC) zur Erfassung der Vorhersagegenauigkeit unserer (klassifizierenden) Modelle entschieden, die zwischen Klassen (z. B. Kauf oder Nicht-Kauf) unterscheiden. Je höher der AUC-Wert, desto besser ist die Leistung des Modells bei der Unterscheidung der positiven und negativen Klassen (Kauf oder Nicht-Kauf).

Ein Vorteil dieser Metrik ist, dass sie unabhängig von der zugrundeliegenden Verteilung der positiven/negativen Fälle funktioniert, da sie keinen festen Trennwert annimmt. Eine gute Erläuterung dazu finden Sie hier.

Wir haben beobachtet, dass alle AUC-Werte größer als 0,55 zwar nicht großartig sind, aber in der Praxis dennoch einen gewissen Mehrwert liefern können. Damit ein Modell jedoch gut ist, sollte der AUC-Wert größer als 0,70 sein. Außerdem haben wir herausgefunden, dass es kein gutes Zeichen ist, wenn ein Modell einen sehr hohen AUC-Wert hat – dazu haben wir ein Sprichwort in unserem Data-Science-Team: „Wenn ein Modell zu gut aussieht, um wahr zu sein, dann ist es das meistens nicht“.

Deshalb bewerten wir alle Modelle kritisch, die einen AUC-Wert von mehr als 0,92 haben, und verwenden keine Modelle, die einen AUC-Wert von mehr als 0,99 haben, weil das fast immer bedeutet, dass es sich hier in den Daten um „False Friends“ handelt.

differences

3. Die Differenz zwischen dem AUC-Wert im Trainings- und im Validierungsdatensatz

Nicht nur der absolute AUC-Wert ist von Interesse. Wir haben zudem beobachtet, dass Modelle, die eine hohe Streuung zwischen dem Trainings-AUC und dem Validierungs-AUC aufweisen, oft auf ein „Overfitting“-Problem hinweisen.

„Overfitting“ bedeutet, dass der Algorithmus, den Ihr Modell erstellt hat, die zugrundeliegenden Muster in Ihren Daten nicht erfasst hat, sondern nur Ihre Trainingsdaten „gelernt“ hat. Sie können in diesem Fall also keine sinnvolle Vorhersage auf neuen, dem Algorithmus unbekannten Daten machen.

Dieses Problem überwachen wir, indem wir den Trainings-AUC-Wert mit dem Validierungs-AUC-Wert vergleichen. Wenn der Validierungs-AUC-Wert deutlich kleiner ist als der des Trainings, werden wir sehr skeptisch, was die Vorhersagefähigkeiten der Modelle angeht.

4. Der Einfluss des Top-Features auf das Modell

Diese Metrik ist der Top-Indikator, um „False Friends“ in den Daten zu erkennen. Wenn der einflussreichste Prädiktor (Feature) Ihres Modells ein sehr hohes Gewicht in der Gesamtvorhersage hat, ist dies oft ein Zeichen für das Vorhandensein von Daten, die zum Zeitpunkt der Vorhersage eigentlich nicht verfügbar sein dürfen („Target Leakage“). Beachten Sie, dass dies nicht der Fall sein muss, da es vielleicht auch einfach eine sehr gute erklärende Variable (Feature) im Datensatz geben kann.

Die Schlussfolgerung aus unserer Analyse ist, dass Sie einen Prädiktor sehr genau untersuchen sollten, wenn der Einfluss des Top-Prädiktors größer als 0,70 ist. Es könnte sich nämlich um einen „False Friend“ handeln. Typischerweise schaut man sich den Datenerzeugungsprozess dieses Merkmals an und entscheidet, ob die Daten für dieses Merkmal versehentlich mit einem falschen (früheren) Datum/Zeitpunkt versehen worden sein könnten.

rank
rank

4. Der Einfluss des Top-Features auf das Modell

Diese Metrik ist der Top-Indikator, um „False Friends“ in den Daten zu erkennen. Wenn der einflussreichste Prädiktor (Feature) Ihres Modells ein sehr hohes Gewicht in der Gesamtvorhersage hat, ist dies oft ein Zeichen für das Vorhandensein von Daten, die zum Zeitpunkt der Vorhersage eigentlich nicht verfügbar sein dürfen („Target Leakage“). Beachten Sie, dass dies nicht der Fall sein muss, da es vielleicht auch einfach eine sehr gute erklärende Variable (Feature) im Datensatz geben kann.

Die Schlussfolgerung aus unserer Analyse ist, dass Sie einen Prädiktor sehr genau untersuchen sollten, wenn der Einfluss des Top-Prädiktors größer als 0,70 ist. Es könnte sich nämlich um einen „False Friend“ handeln. Typischerweise schaut man sich den Datenerzeugungsprozess dieses Merkmals an und entscheidet, ob die Daten für dieses Merkmal versehentlich mit einem falschen (früheren) Datum/Zeitpunkt versehen worden sein könnten.

Fazit

Auch wenn die oben aufgeführten Robustness Checks nur ein kleiner Teil des Großen Ganzen sind, lässt sich anhand dieser Basisindikatoren prüfen, ob bei der Erstellung der Vorhersagemodelle etwas schief gelaufen ist. Diese Robustheitsprüfungen bedeuten aber noch kein grünes Licht für die Umsetzung eines Vorhersagemodells in der Praxis.

Zunächst sollten Sie sich jedoch die Frage stellen: “Helfen die Ergebnisse dieses Modells meinem spezifischen Business Case?” Die Antwort auf diese Frage ist oft viel schwieriger zu finden als die Bewertung der statistischen Güte eines Modells.

Hier geht es zum originalen Artikel auf Medium.

Dr. Dennis Proppe

Über den Autor: Dr. Dennis Proppe ist der Chief AI Officer von CrossEngage und für die Produktentwicklung und die Umsetzung der Vision verantwortlich. Er verfügt über 15 Jahre Erfahrung im Bereich Machine Learning und baut seit zehn Jahren AI- und Engineering-Teams auf. Dennis hat in Marketing und Statistik an der Universität Kiel promoviert.