Ein Tag im Leben eines Datenintegrationsentwicklers: So erstellen Sie Ihren ersten Job in Talend Studio [Teil 2]

Das Video zeigt anhand eines einfachen Beispiels, wie Sie Ihren ersten Job in Talend Studio erstellen. Fortgeschrittene Funktionen werden in den anderen Teilen dieser Reihe vorgestellt:

In diesem Teil von Ein Tag im Leben eines Datenintegrationsentwicklers greifen wir auf ein Data Warehouse mit Filmbewertungen zu, um für jeden Film und US-Bundesstaat eine Durchschnittswertung zu berechnen. Dazu sind folgende Schritte notwendig:

  1. zwei Tabellen des Data Warehouse miteinander verknüpfen,
  2. mithilfe einer Aggregat-Komponente für jeden US-Bundesstaat die Durchschnittswertung berechnen, und
  3. das Ergebnis in einer separaten Tabelle im Data Warehouse speichern.

1. Tabellen verknüpfen

Klicken Sie mit der rechten Maustaste auf die Ordnerstruktur des „Job Designs“-Repositorys und wählen Sie „Create Job“ aus. Geben Sie einen Namen und eine kurze Beschreibung ein.

Datenintegrationsjob

Als Nächstes laden Sie zwei Definitionen der Datenbanktabellen aus dem „Metadata“-Repository, in denen die Daten enthalten sind, die wir benötigen. Da ist zum einen eine Faktentabelle mit den Bewertungsdaten und eine Dimensionstabelle mit Benutzern, in der auch die Information über den jeweiligen US-Bundesstaat enthalten ist

Beide werden in die Arbeitsfläche gezogen. Weil es sich um generische Metadatentabellendefinitionen handelt, werden sie als MysqlInput-Quellkomponenten bezeichnet.

Einen Datenjob erstellen

Jetzt müssen die beiden Quellkomponenten verknüpft werden. Dazu verwende ich eine tMap. Ich kann die Komponente entweder aus der Palette auf der rechten Seite auswählen oder ich klicke in die Arbeitsfläche, gebe einen Text ein, und wähle die Komponente aus, um den Job-Flow anzuzeigen.

Verbinden wir die Daten mit der tMap. Dafür habe ich zwei Möglichkeiten: über das Kontextmenü und die Zeilenfunktion oder ich ziehe mithilfe der Symbole neben den Komponenten Verbindungslinien. Während ich das tue, benenne ich die Konnektoren, indem ich die Beschriftungen doppelt anklicke. Auch die Komponenten kann ich umbenennen. So weiß ich später, um welche Tabellen es sich genau handelt, wenn ich die tMap bei der Erstellung des Job-Flows konfiguriere.

2. Eine Aggregatkomponente verwenden

Die dritte Komponente, die wir benötigen, ist ein Aggregator. Damit berechnen wir die Durchschnittswertung für jeden US-Bundesstaat.

  1. Klicken Sie in die Arbeitsfläche und suchen Sie nach „Aggregate“, um die neue Komponente auszuwählen.
  2. Verbinden Sie die Komponente mit der tMap und geben Sie dem Output einen Namen.

3. Eine Zieltabelle erstellen

Eine Sache fehlt noch: eine Zieltabelle, in der die Ergebnisdaten gespeichert werden. Laden wir also nun die Metadaten für die Zieltabelle, legen sie als MysqlOutput-Komponente fest und verbinden sie mit dem Rest meines Flows.

Komponenten konfigurieren

Nachdem jetzt alle Teile des Jobs platziert und verbunden sind, müssen die Komponenten noch konfiguriert werden, damit der Datenfluss korrekt ablaufen kann.

Die tMap konfigurieren

Zuerst konfigurieren wir die tMap, indem wir „Ratings_In“ mit „lkp_States“ verknüpfen.

  1. Verbinden Sie die beiden Datasets, indem Sie die „User ID“ der Tabelle „Ratings_In“ mit dem Feld ID der Tabelle „lkp_States“ verbinden.
  2. Wenn die beiden Tabellen verknüpft sind, ziehen Sie „Movie_Id“ und das Feld Rating in der Tabelle „Ratings_In“ und das Feld State in der Tabelle „lkp_States“ auf die Tabelle „Ag_Output“. Das erzeugt das Output-Dataset, das wir für den restlichen Flow brauchen.
  3. Klicken Sie auf OK.

Den Aggregator konfigurieren

Im nächsten Schritt wird der Aggregator konfiguriert. Dazu muss ich zuerst überprüfen, ob das Aggregator-Schema zu den definierten Outputs der Komponente passt. Die Spalten „Movie_Id“ und „State“ sollen in den Aggregator-Output verschoben werden und eine Spalte muss vorhanden sein, um die aggregierten Daten aufzunehmen. Diese Spalte heißt Average_Rating.

Die Spalte stellt den gewichteten Durchschnitt dar und es werden Dezimalstellen benötigt. Daher wählen wir den Datentyp Float mit einer Länge von 5 und einer Genauigkeit bis zur dritten Stelle aus.

Datenintegrationsjob

Sieht alles super aus, also bestätige ich mit OK.

Das Schema steht, sodass wir den Aggregator für die Berechnung der Durchschnittswertung konfigurieren können:

  1. Wir gruppieren nach Movie_Id und State. Für die Operationen soll die Output-Spalte Average_Rating verwendet werden, die wir gerade im Output-Schema bestätigt haben.
  2. Wählen Sie als Funktion avg aus. Der Durchschnitt soll für das Feld Rating berechnet werden.
  3. Meine Zielquelle ist bereits mit der MySQL-Zieltabelle verknüpft. Der Job ist also startbereit.

Zum Schluss geben wir dem Flow noch einen Namen. Dazu wähle ich den Flow aus, öffne die Registerkarte Components, wähle Show subjob title aus und gebe die Bezeichnung „Load Average Rating by State“ ein.

Den ersten Job ausführen

Jetzt können wir den Job ausführen. Dazu öffne ich in der Designpalette die Registerkarte Run und starte die Ausführung. Der Job wird problemlos ausgeführt.

Wenn Sie an einer detaillierten Anleitung zur Erstellung Ihres ersten Jobs in Studio interessiert sind, sehen Sie sich das Video oben an. Im nächsten Teil erfahren Sie mehr über die Ausführung von Prozessen bzw. Jobs sowie das Testing und Debugging.

| Zuletzt aktualisiert: August 7th, 2019