Engine zur Risikobewertung in Echtzeit – POC

Talend Cookbook: Big Data und maschinelles Lernen

Rest der Serie ansehen:

Sandbox-Einrichtung

Prädiktive Wartung im IoTEmpfehlungs-EngineData-Warehouse-Optimierung

Einleitung

In diesem Demo-Beispiel geht es um eine Online-Bank, die ihre Risikoexposition und ihr Risiko dadurch zu verringern versucht, dass sie Kreditangebote gezielt nur Kunden anzeigt, die sowohl ein mutmaßlich niedriges Kreditrisiko als auch die größte Wahrscheinlichkeit aufweisen, das Angebot anzunehmen. Dieser Job wird daher mithilfe von Web-APIs, maschinellem Lernen sowie eines Entscheidungsbaum-Modells entscheiden, ob bei der Anmeldung des Kunden ein bestimmtes Kreditangebot oder kein Angebot angezeigt werden soll.

Sandbox-Schema zur Risikobewertung in Echtzeit


Highlights

Maschinelles Lernen

Mithilfe von Talend-Funktionen für maschinelles Lernen wird ein Entscheidungsbaum-Modell erstellt.

Daten-Streaming mit Spark

Echtzeit-/Spark-Streaming

Mit Spark werden Ihre Streaming-Jobs in Apache Kafka ausgeführt.

NoSQL / SQL

Unterschiedliche Datenbankmodelle im Einsatz: Cassandra, MySQL


Ausführung

Rufen Sie auf der Sandbox-Ladeseite das Portal mit dem Anwendungsbeispiel für die Risikobewertung („Risk assessment“) auf. Hier finden Sie eine Kurzanleitung und eine interaktive Weboberfläche.

Sandbox-Schema zur Risikobewertung in Echtzeit

Öffnen Sie Talend Studio in der Sandbox-Umgebung. Bei diesem Beispiel arbeiten wir im Ordner RealTimeRiskAssessmentEngine in der Repository-Ansicht und sehen uns Jobs in den Job-Designs Standard, Big Data Batch und Big Data Streaming an. Wenn Sie so weit sind, beginnen Sie die Demo wie folgt:

  1. Öffnen Sie unter den Standard-Jobs den Ordner RealTimeRiskAssessmentEngine. Führen Sie den Job Step_01_SetupMarketingCampaignsEnv aus. Hierdurch initialisieren Sie die Demo-Umgebung entsprechend der gewählten Big-Data-Plattform. Insbesondere werden dabei die Daten in das Dateisystem HDFS und eine NoSQL-Datenbank geladen, was den Datenabruf beschleunigt. Sandbox-Umgebung zur Einrichtung der Risikobewertung
  2. Öffnen Sie unter den Big Data Batch-Jobs den Ordner RealTimeRiskAssessmentEngine. Führen Sie den Job Step_02_Train_MarketingCampaignData aus. Bei diesem Job wird ein Entscheidungsbaum-Modell mithilfe der Talend-Komponente „tDecisionTreeModel“ anhand eines früheren Datensatzes trainiert.Sandbox-Training des Modells für die Risikobewertung
  3. Optional: Öffnen Sie unter den Big Data Batch-Jobs den Ordner RealTimeRiskAssessmentEngine. Führen Sie den Job Step_02bis_Test_MarketingCampaignData aus. Die Ergebnisse dieses Jobs geben Ihnen Auskunft über das Verhältnis von richtigen Vorhersagen zu falsch-positiven Vorhersagen. In die Sprache des maschinellen Lernens übersetzt, ist dies die sogenannte Wahrheits- oder Konfusionsmatrix – eine Übersicht über die Vorhersageresultate zu einem Klassifikationsproblem. Dieser Job dient als Test unseres zuvor trainierten Modells, diesmal mit einem separaten Datensatz.Sandbox-Test des Modells für die Risikobewertung
  4. Öffnen Sie unter den Big Data Streaming-Jobs den Ordner RealTimeRiskAssessmentEngine. Führen Sie den Job Step_03_RealtimeConversionPredictio aus. Durch diesen Job wird in Echtzeit die Anzeige festgelegt, die dem Benutzer präsentiert werden soll.Sandbox-Vorhersage für die Risikobewertung
  5. Öffnen Sie unter den Standard-Jobs den Ordner RealTimeRiskAssessmentEngine. Führen Sie die Jobs Step_04_AdService und Step_05_LoginService aus. Hierdurch wird dem Web-Portal für die Echtzeit-Risikobewertung eine Web-API zur Verfügung gestellt, sodass dort die Ergebnisse getestet werden können.

    Step_04_AdService

    Sandbox-Anzeigendienst für die Risikobewertung

    Step_05_LoginService

    Sandbox-Anmeldedienst für die Risikobewertung

  6. Navigieren Sie bei aktiven Web Services zur Portalseite für die prädiktive Wartung („Predictive Maintenance“) oder laden Sie diese Seite erneut. Füllen Sie das Formular auf der Webseite aus und prüfen Sie die Anzeige, die als Ergebnis ausgegeben wird. In diesem Beispiel wird mit einer Datenbank von rund 1500 Benutzern gearbeitet. Melden Sie sich unter einer Benutzer-ID im Bereich von 0 bis 1547 an und prüfen Sie das Ergebnis. Für die meisten Benutzer wird keine Anzeige ausgegeben. Für einige ausgewählte Benutzer jedoch sehen Sie einen Hinweis, dass für den angegebenen Benutzer eine gezielte Marketing-Anzeige eingeblendet wird. Beispiel: Melden Sie sich mit der ID 569 an – Sie sehen den Hinweis auf eine gezielte Marketing-Anzeige. Wenn Sie sich das zweite Mal unter derselben Benutzer-ID anmelden, erscheint die als Ergebnis festgelegte Anzeige ohne Verzögerung, weil gezielte Anzeigen für diesen Benutzer im Ablauf bereits gespeichert wurden.


Fazit

Dieses Beispiel illustriert, wie mithilfe von maschinellem Lernen und Spark sowohl die Verarbeitung von Entscheidungen als auch wertvolle Einblicke in kürzester Zeit realisiert werden können. Dabei erfolgte die Auswahl bestimmter Kunden als Zielkunden von Marketingkampagnen mithilfe eines Entscheidungsbaum-Modells.

| Zuletzt aktualisiert: August 7th, 2019