[Premium]{class="badge positive" title="Erfahren Sie, was in Target Premium enthalten ist."}

Random-Forest-Algorithmus

Last update: Wed Sep 20 2023 00:00:00 GMT+0000 (Coordinated Universal Time)

Themen:
Automated Personalization

Der wichtigste Personalisierungsalgorithmus, der sowohl in (AP) als auch in Auto-Target Aktivitäten ist Random Forest. Ensemble-Methoden, wie Random Forest, verwenden mehrere Lernalgorithmen, um eine bessere Vorhersageleistung zu erzielen, als sie sich aus den einzelnen Lernalgorithmen ergeben könnte. Der Random Forest-Algorithmus in Automated Personalization und Automatisches Targeting ist eine Klassifizierungs- oder Regressionsmethode, die bei der Schulung durch die Konstruktion einer Vielzahl von Entscheidungsbäumen arbeitet.

Wenn man an Statistiken denkt, kommt einem ein einzelnes Regressionsmodell in den Sinn, mit dem man ein Ergebnis vorhersagen kann. Neueste datenwissenschaftliche Forschungen legen nahe, dass „Ensemble-Methoden“, bei denen mehrere Modelle aus demselben Datensatz erstellt und dann intelligent kombiniert werden, bessere Ergebnisse liefern als die Vorhersage auf der Grundlage eines einzelnen Modells.

Der Random Forest-Algorithmus ist der wichtigste zugrunde liegende Personalisierungsalgorithmus, der in Automated Personalization und Automatisches Targeting Aktivitäten. Random Forest kombiniert Hunderte von Entscheidungsbäumen, um zu einer besseren Vorhersage zu gelangen, als es ein einzelner Baum allein tun könnte.

Was ist ein Entscheidungsbaum? section_7F5865D8064447F4856FED426243FDAC

Ziel einer Entscheidungsstruktur ist es, alle verfügbaren Besuchsdaten, aus denen ein System lernen kann, aufzuschlüsseln und diese Daten dann zu gruppieren, wobei Besuche innerhalb jeder Gruppe im Hinblick auf die Zielmetrik so ähnlich wie möglich sind. Gruppenübergreifend sind die Besuche jedoch hinsichtlich der Zielmetrik (z. B. Konversionsrate) so unterschiedlich wie möglich. Der Entscheidungsbaum untersucht die verschiedenen Variablen, die er im Trainings-Satz hat, um zu bestimmen, wie die Daten in einer MECE-Methode (Mutally Exclusive Collective Exhaustive) in diese Gruppen (oder "Blätter") aufgeteilt werden, um dieses Ziel zu maximieren.

In einem einfachen Beispiel nehmen wir zwei Eingabevariablen an:

Geschlecht (mit zwei möglichen Werten, männlich oder weiblich)
Postleitzahl (mit fünf potenziellen Werten im kleinen Datensatz: 11111, 2222, 33333, 44444 oder 5555)

Wenn die Zielmetrik Konversion ist, bestimmt der Baum zunächst, welche der beiden Variablen die größte Variation der Konversionsrate der Besuchsdaten erklärt.

Nehmen wir einmal an, die Postleitzahl sei sehr prädiktiv. Diese Variable würde dann den ersten „Zweig“ des Baumes bilden. Der Entscheidungsbaum würde dann festlegen, wie die Besuchsdaten aufgeteilt werden sollen, z. B. die Konversionsrate der Datensätze innerhalb der einzelnen Splits wäre so ähnlich wie möglich und die Konversionsrate zwischen den Splits so unterschiedlich wie möglich. In diesem Beispiel wird angenommen, dass 11111, 2222, 3333 eine Aufspaltung und 44444 und 55555 eine zweite Aufspaltung sind.

Diese Aktion führt zur ersten Ebene des Entscheidungsbaums:

Bild des Entscheidungsbaums_1

Der Entscheidungsbaum stellt die Frage: "Was ist die prädiktivste Variable?" In diesem Beispiel gibt es nur zwei Variablen, daher lautet die Antwort hier eindeutig Geschlecht. Der Baum versucht nun, eine ähnliche Übung zum Aufteilen der Daten abzuschließen innerhalb jedes Zweigs. Betrachten wir zunächst Zweig 11111, 22222 und 33333. Wenn es in diesen Postleitzahlbereichen zwischen Männern und Frauen einen Unterschied bei der Konversion gäbe, dann gäbe es zwei Blätter (Männer und Frauen) und dieser Zweig wäre komplett. In den anderen Zweigen, 44444 und 5555, nehmen wir an, es gibt keinen statistischen Unterschied zwischen der Konvertierung von Frauen und Männern. In diesem Fall wird der erste Zweig zum endgültigen Split.

Das Beispiel würde zu der folgenden Baumstruktur führen:

Bild der Entscheidungsstruktur_tree_2

Wie werden Entscheidungsbäume von Random Forest verwendet? section_536C105EF9F540C096D60450CAC6F627

Entscheidungsbäume können ein effektives statistisches Werkzeug sein. Sie haben jedoch einige Nachteile. Am kritischsten ist, dass sie die Daten „überanpassen“ können, sodass ein einzelner Baum zukünftige Daten schlecht vorhersagt, die nicht für den Aufbau des ursprünglichen Baums verwendet wurden. Dieses Problem ist in der Statistik als Verzerrung-Varianz-Dilemma bekannt. Random-Wälder helfen bei der Überanpassung. Auf der obersten Ebene ist Random Forest eine Sammlung von Entscheidungsbäumen, die leicht unterschiedlich auf dem gleichen Datensatz aufgebaut sind und gemeinsam „abstimmen“, um ein besseres Modell zu erhalten, als ein einzelner Baum dies kann. Die Bäume werden durch die zufällige Auswahl einer Teilmenge von Besuchsprotokollen mit Ersetzung (auch als Ausbaggern bezeichnet) und die zufällige Auswahl einer Teilmenge der Attribute erstellt, sodass der Wald aus leicht unterschiedlichen Entscheidungsbäumen besteht. Diese Methode ermöglicht kleine Variationen der Bäume, die im Random Forest entstehen. Das Hinzufügen dieser kontrollierten Varianz hilft, die Vorhersagegenauigkeit des Algorithmus zu verbessern.

Wie wird die Target Personalisierungsalgorithmen verwenden Random Forest? section_32FB53CAD8DF40FB9C0F1217FBDBB691

Wie Modelle erstellt werden

Das folgende Diagramm fasst zusammen, wie Modelle für Automatisches Targeting und Automated Personalization Aktivitäten:

random_forest_flow-Bild {width="650" modal="regular"}

Target erfasst Daten zu Besuchern, während Erlebnisse oder Angebote zufällig bereitgestellt werden
Nachher Target Treffer mit einer kritischen Datenmenge, Target Funktionsentwicklung
Target erstellt Random Forest-Modelle für jedes Erlebnis oder Angebot
Target prüft, ob das Modell einen Schwellenwert für die Qualitätsbewertung erreicht.
Target schiebt das Modell in die Produktion, um den zukünftigen Traffic zu personalisieren.

Target verwendet automatisch erfasste Daten und von Ihnen bereitgestellte benutzerdefinierte Daten, um die Personalisierungsalgorithmen zu erstellen. Diese Modelle prognostizieren das beste Erlebnis oder das beste Angebot für den Besucher. Im Allgemeinen wird pro Erlebnis ein Modell erstellt (wenn ein Automatisches Targeting Aktivität oder pro Angebot (wenn ein Automated Personalization -Aktivität). Target zeigt dann das Erlebnis oder Angebot an, das die höchste prognostizierte Erfolgsmetrik liefert (z. B. Konversionsrate). Diese Modelle müssen mit zufällig ausgewählten Besuchen trainiert werden, bevor sie für eine Vorhersage verwendet werden können. Daher werden auch den Besuchern, die sich in der personalisierten Gruppe befinden, bei Beginn einer Aktivität nach dem Zufallsprinzip verschiedene Erlebnisse oder Angebote angezeigt, bis die Personalisierungsalgorithmen betriebsbereit sind.

Jedes Modell muss validiert werden, um sicherzustellen, dass es gut darin ist, das Verhalten der Besucher vorherzusagen, bevor es in Ihrer Aktivität verwendet wird. Modelle werden anhand ihres Bereichs unter der Kurve (AUC) validiert. Aufgrund der Notwendigkeit einer Validierung hängt der genaue Zeitpunkt, zu dem ein Modell mit der Bereitstellung personalisierter Erlebnisse beginnt, von den Details der Daten ab. Für die praktische Traffic-Planung dauert es in der Regel mehr als die Mindestzahl an Konversionen, bis ein Modell funktionsfähig ist.

Wenn ein Modell für ein Erlebnis oder ein Angebot in Funktion geht, wird das Uhrensymbol links neben dem Erlebnis-/Angebotsnamen zu einem grünen Kontrollkästchen. Wenn es gültige Modelle für mindestens zwei Erlebnisse oder Angebote gibt, beginnen einige Besuche zu personalisieren.

Merkmalumwandlung

Bevor die Daten in den Personalisierungsalgorithmus aufgenommen werden, durchlaufen sie eine Merkmalumwandlung, die man sich als Vorbereitung der mit den Trainingsdatensätzen gesammelten Daten für die Verwendung durch die Personalisierungsmodelle vorstellen kann.

Die Merkmalumwandlungen hängen vom Attributtyp ab. Es gibt vor allem zwei Arten von Attributen (oder „Features“, wie sie manchmal von Datenwissenschaftlern genannt werden):

Kategorische Merkmale: Kategorische Merkmale lassen sich nicht zählen, können jedoch in verschiedene Gruppen unterteilt werden. Dabei kann es sich um Merkmale wie Land, Geschlecht oder Postleitzahl handeln.
Numerische Merkmale: Diese Merkmale lassen sich messen oder zählen – beispielsweise Alter, Einkommen usw.

Für kategorische Merkmale wird ein Satz mit allen möglichen Merkmalsausprägungen gepflegt und die Umwandlungswahrscheinlichkeit wird verwendet, um die Datengröße zu reduzieren. Bei numerischen Funktionen stellt die Neuskalierung sicher, dass die Funktionen auf allen Ebenen vergleichbar sind.

Ausbalancieren von Lernen und Personalisierung mit dem Multi-Armed Bandit

Nachher Target Personalisierungsmodelle zur Personalisierung Ihres Traffics entwickelt hat, gibt es einen klaren Kompromiss für zukünftige Besucher Ihrer Aktivität. Sollten Sie den gesamten Traffic basierend auf dem aktuellen Modell personalisieren oder sollten Sie weiterhin von neuen Besuchern lernen, indem Sie ihnen zufällige Angebote bereitstellen? Sie möchten sicherstellen, dass der Personalisierungsalgorithmus immer über neue Trends bei Ihren Besuchern informiert ist, während Sie gleichzeitig den größten Teil des Traffics personalisieren.

Der "mehrarmige Bandit"ist wie Target hilft Ihnen, dieses Ziel zu erreichen. Der "mehrarmige Bandit"stellt sicher, dass das Modell immer einen kleinen Bruchteil des Traffics "ausgibt", um während des gesamten Lebenszyklus des Aktivitätslernens weiter zu lernen und eine Übernutzung zuvor erlernter Trends zu verhindern.

In der datenwissenschaftlichen Welt ist das Multi-Armed Bandit-Problem ein klassisches Beispiel für das Exploration versus Explosion-Dilemma, in dem eine Sammlung einarmiger Banditen mit unbekannter Belohnungswahrscheinlichkeit gegeben wird. Die Grundidee besteht in der Entwicklung einer Strategie, die dazu führt, dass der Automat mit der höchsten Erfolgswahrscheinlichkeit bedient wird, sodass der Gesamtgewinn maximiert wird. Multi-Armed Bandit wird im System für die Online-Bewertung verwendet, nachdem die Online-Modelle erstellt wurden. Dieser Prozess hilft beim Online-Lernen während der Erkundung. Der aktuelle Multi-Armed-Algorithmus ist ein Greedy-Algorithmus für Epsilon (ε). Bei diesem Algorithmus wird mit einer Wahrscheinlichkeit von 1-ε der beste Arm gewählt. Die Wahrscheinlichkeit für die zufällige Auswahl eines beliebigen anderen Arms ist ε.

recommendation-more-help

3d9ad939-5908-4b30-aac1-a4ad253cd654