Entwicklung einer Tableau-Komponente für Talend Studio

Entwicklung einer Tableau-Komponente für Talend Studio

Bisher war es nur über Umwege möglich, mit Talend Data Integration aufbereitete Daten auf einem Tableau-Server zu veröffentlichen. In diesem Blogeintrag stellen wir eine neu entwickelte Talend-Komponente vor, mit der Daten direkt auf einem Tableau-Server abgelegt werden können.

Konkrete Problemstellung aus einem Business Use Case

Ein Unternehmen will aus Performance Gründen nicht allen Mitarbeitern direkten Zugriff auf eine SAP-Hana-Datenbank geben. Daher werden mit dem Datenintegrationswerkzeug Talend aus den Hana-Daten Extrakte erstellt. Die Analyse der Extrakte soll auf Basis des Visualisierungstools Tableau erfolgen. Für dieses Vorhaben müssen die Extrakte allerdings an dritter Stelle Zwischengespeichert werden. Das Hochladen auf den Tableau Server oder  in die Cloud (Tableau Online) ist wiederrum nur über Tableau Desktop möglich. Ein recht umständlicher und zeitintensiver Weg.

Mit einer selbstentwickelten Talend-Komponente wollen wir dem Unternehmen eine schnellere und einfachere Lösung bieten. Daten sollen über diese direkt auf den Tableau Server geladen werden.

Entwickeln mit dem Talend Component Kit

Grundlage für die Entwicklung der Komponente ist das auf Talend 7 basierende Talend Component Kit. Dieses skalierbare Komponentenentwicklungs-Framework mit einem umfangreichen Satz vordefinierter Klassen, Methoden und Funktionen rationalisiert den Komponentenentwicklungsprozess und erleichtert das Deployment der Komponente in Talend-Produkte. Das Framework ist erforderlich, um Komponenten zu entwickeln, die in verschiedenen Talend-Tools eine optimale Leistung erzielen.

Tableau HyperExtract- und Rest API

Um die Laufzeit für Abfragen und Datenextrakte deutlich zu verkürzen nutzen wir die HyperExtract-API von Tableau. So wird der Datenfluss in Talend in das sehr performante Hyper-Format extrahiert. Es werden alle gängigen Datentypen (Schemata) unterstützt – egal ob String, Integer oder Date.

Das Hochladen erfolgt mithilfe der Tableau REST API. Dabei verwenden wir die Multipart-Upload-Option. Diese unterteilt sich in die Initialisierung des Uploads, das Hochladen in kleinen Teilen und die Finalisierung des Uploads. Ein Vorteil des Multipart Uploads ist, dass Dateien in größerem Umfang als 64 MB, welche maximal mit einem Single-Call-Upload möglich wären, hochgeladen werden können. Auch das Anhängen von Datenblocks an bereits hochgeladene Daten ist möglich.  

Ein Anwendungsbeispiel

Mit der Tableau-Komponente kann das Unternehmen, aus dem beschrieben Use Case, die Extrakte direkt aus Talend auf den Tableau-Server laden. So sind die Mitarbeiter in der Lage die Daten, auch ohne direkten Zugriff auf die SAP Hana-Datenbank, zu analysieren.  

Abbildung 1 zeigt ein weiteres Beispiel. Zwei Datenquellen sollen miteinander verknüpft werden. Eine davon enthält Informationen über Flugrouten, wie Start- und Zielflughafen. Die andere beinhaltet Informationen über Flughäfen, wie Längen- und Breitengrad. Durch das Zusammenführen der beiden Tabellen lassen sich Start- und Endpositionen für jede Route identifizieren.

Tableau Komponente mit Talend

Abbildung 1: Talend-Job mit Tableau-Komponente

 

Über die tMap-Komponente werden die Daten miteinander verknüpft. Dabei müssen jeweils zwei Joins durchgeführt werden – um Geoinformationen für den Startflughafen und Geoinformationen über den Zielflughafen in einer Zeile zu generieren.

Anschließend wird die tMap-Komponente mit der tTableau-Komponente verknüpft. Sowohl die Zugangsdaten der Tableau-Instanz, als auch die Seite und das Projekt des Tableau-Servers müssen angegeben werden, damit die Daten am richtigen Ort hochgeladen werden. Optional lässt sich der erstellte Extrakt auch lokal auf dem Rechner ablegen. Durch das Ausführen des Jobs werden die verknüpften Daten auf den Tableau-Server geladen. Die Datenquelle im Hyper-Format kann nun direkt auf dem Server zur Analyse und Visualisierung verwendet werden (Abbildung 2).

Visualisierung der Daten mit Tableau

Abbildung 2: Visualisierung der Daten mit Tableau

Fazit

Mit der Tableau Komponente für Talend Studio können Zeit, Aufwand und Kosten gespart werden. Ohne Umwege lassen sich in Talend aufbereitete Daten im performante Hyper-Format direkt auf Tableau Online oder Tableau Server veröffentlichen, wobei selbst extrem große HyperExtracte kein Problem darstellen. Es wird keine Tableau Desktop-Version mehr benötigt, lediglich die Zugangsdaten zu Tableau Online oder -Server.

Weitere Informationen zu der Tableau-Komponente für Talend finden sich auf der Komponentenseite der cimt ag:
www.cimt-ag.de/tableau-komponente

Über die Autoren

Die Autoren David und Torben arbeiten beide als BI-Berater und Softwareentwickler bei der cimt ag. Die cimt ag ist seit mehr als 10 Jahren einziger Talend SI Platinum Partner in den Regionen DACH und Benelux unterwegs und arbeitet mit über 200 Consultants an ihren Herausforderungen im BI-Umfeld. Diese Komponente ist auf Basis der Partnerschaften der cimt ag mit Talend und Tableau entstanden, für die die cimt ebenfalls als Dienstleister für Sie im Einsatz ist.  

 

An der Diskussion teilnehmen

0 Comments

Hinterlasse eine Antwort

Your email address will not be published. Required fields are marked *