Data-Warehouse-Optimierung – POC

Talend Cookbook: Big Data und maschinelles Lernen

Rest der Serie ansehen:

Sandbox-Einrichtung

Prädiktive Wartung im IoTRisikobewertung in EchtzeitEmpfehlungs-Engine

Einleitung

In diesem Beispiel wählen wir einen Ansatz zur Data-Warehouse-Optimierung. Dabei nutzen wir die Leistungsfähigkeit von Spark zur Analyse eines umfangreichen Datensatzes noch vor dem Laden in das Data Warehouse. Auf diese Weise können wir die Integrität der Daten bestätigen und können uns, falls doch das Risiko einer Minderung der Datenqualität im Data Warehouse besteht, letztlich gegen den Ladevorgang entscheiden. Bemerkenswert an der Konfiguration dieser Demo ist auch, dass die integrierte Spark Engine von Talend Studio ohne direkte Anbindung an eine Big-Data-Plattform auskommt. Die Spark Engine von Talend Studio ist zwar keine Lösung für eine Produktionsumgebung, dennoch zeigt das Beispiel, dass Talend-Benutzer auch in Entwicklungsprojekten in vollem Umfang von der Spark-Funktionalität profitieren können, ohne eine Verbindung mit einer regulären Big-Data-Platform herstellen oder einrichten zu müssen.


Highlights

Sandbox-Analytik für das Data Warehouse

Analytik vor dem Laden in das Data Warehouse

Durch die Analyse großer Datenmengen VOR dem Laden in das Data Warehouse wird der Verwaltungs- und Kostenaufwand vermieden, der später durch Datenanomalien im Data Warehouse entsteht.

Symbol für umfangreiche Verarbeitung in der Sandbox

Verarbeitung großer Datenmengen mit Spark

Mit Talend und Spark lassen sich Daten im Gigabyte- und Terabytebereich in einem Bruchteil der üblichen Zeit verarbeiten.

Entlastung beim ETL-Prozess

Wenn Sie Talend mit einer Big-Data-Plattform nutzen, können Sie kostspielige Datenverarbeitung vermeiden und so Ihr Data Warehouse optimieren.


Ausführung

Rufen Sie auf der Sandbox-Ladeseite das Portal mit dem Anwendungsbeispiel für die Data-Warehouse-Optimierung auf. Hier finden Sie eine Kurzanleitung und eine interaktive Weboberfläche.

Sandbox-Ladeseite für die Data-Warehouse-Optimierung

Öffnen Sie Talend Studio in der Sandbox-Umgebung. Bei diesem Beispiel arbeiten wir im Ordner Warehouse_Optimization (in der Repository-Ansicht) und sehen uns Jobs in den Job-Designs Standard und Big Data Batch an. Wenn Sie so weit sind, beginnen Sie die Demo wie folgt:

  1. Öffnen Sie unter den Big Data Batch-Jobs den Ordner Warehouse_Optimization. Führen Sie den Job Step_01_Generate_MonthlyReport aus. Dies ist ein Apache-Spark-Job, mit dem eine große Menge Dateien aus einem einzelnen Verzeichnis gelesen und in einem einzigen Bericht zusammengefasst wird. Data-Warehouse-Optimierung – Monatsbericht erzeugen
  2. Öffnen Sie unter den Big Data Batch-Jobs den Ordner Warehouse_Optimization. Führen Sie den Job Step_02_Month_Over_Month_Comparison aus. Durch diesen Spark-Job werden die neu aggregierten Daten aus dem vorherigen Job mit den Daten der gleichen Berichtsdatei aus dem Vormonat verglichen, um Hinweise auf Datenanomalien zu erhalten. Ein typischer Anwendungsfall wäre z. B., dass diese Jobs jedes Mal auszuführen sind, wenn ein neuer Datensatz planmäßig in das Data Warehouse geladen werden soll (in diesem Fall also jeden Monat). Für diese Sandbox-Demo haben wir die Vergleichsdaten des Vormonats bereits geladen.Data-Warehouse-Optimierung – Job mit Monatsvergleich
  3. Öffnen Sie unter den Standard-Jobs den Ordner Warehouse_Optimization. Führen Sie den Job Step_03_GoogleChart_Product_by_Unit aus. Durch diesen Job werden mithilfe von Google Charts die im vorangegangenen Job erstellten Vergleichsdaten in Diagrammform dargestellt. Die Diagramme können im Dashboard dieser Webseite eingesehen werden.Data-Warehouse-Optimierung – Google Chart-Diagramm
  4. Sehen Sie sich das Dashboard auf der Seite und die zwei generierten grafischen Berichte an. Hier müssten Ihnen bestimmte Produkte auffallen, die sich klar von den übrigen Produkten unterscheiden – ein Hinweis auf fehlerhafte Daten. In einem realen Fall könnten Geschäftsanalysten, die mit den Daten vertraut sind, die Anomalien erkennen und das Laden der Daten in das Data Warehouse verhindern.

Demo-Webseite für das Data Warehouse


Fazit

Dieses Beispiel illustriert die Nutzung der in Talend Studio integrierten Spark-Engine. Dieselbe Demo könnte man auch so konfigurieren, dass sie auf einer beliebigen anderen Big-Data-Plattform läuft. Ladevorgänge mit großen Datenmengen sind zeitaufwendig und wenn die Daten beschädigt oder fehlerhaft sind, dauert der gesamte Ablauf durch Korrekturmaßnahmen sogar noch länger. Jedoch kann dank der nativen Anbindung von Talend an Apache Spark und dessen leistungsfähige Datenverarbeitung auch ein umfangreicher Datensatz vor dem Laden in das Data Warehouse in kurzer Zeit problemlos analysiert werden. Hierdurch erhalten Geschäftsanalysten vorab einen Einblick in die Datenqualität. Das Data Warehouse selbst wird von der Verarbeitung großer Datenmengen entlastet und kann für seine eigentliche Aufgabe genutzt werden – die schnelle Bereitstellung von Daten für hochwertige Berichte.

| Zuletzt aktualisiert: August 7th, 2019