TALEND WEBINAR : December 8th, 2017 | Data Integration With B2B Companies

Integration von Google Analytics in Talend Studio

Integration von Google Analytics in Talend Studio

  • Steffen Bischoff
    Steffen Bischoff ist Senior Sales Engineer bei Talend. In dieser Rolle nutzt Steffen sein technisches Wissen sowie seine Verkaufskompetenz, um für alle Talend Produkte eine professionelle Beratung und Unterstützung anzubieten. Vor Talend arbeitete Steffen als Pre-Sales Consultant und Server- und Netzwerkadministrator.
  • April 10, 2018

Google Analytics ist ein Online-Dienst von Google, der der Analyse von Datenverkehr auf Webseiten dient.

Der Dienst untersucht u. a. die Herkunft der Besucher, ihre Verweildauer auf einzelnen Seiten sowie die Nutzung von Suchmaschinen. Google Analytics wird von fast 50 % aller Websites genutzt.

In dieser Dokumentation wird gezeigt wie mit Hilfe der Open Source Komponente tGoogleAnalyticsInput Daten aus Google Analytics mit Hilfe von Talend Studio verarbeitet werden können.

 

Open Source Komponente von Talend Exchange

Auf der Plattform Talend Exchange (https://exchange.talend.com) kann man sich die Open Source Komponente tGoogleAnalyticsInput des Entwicklers Jan Lolling herunterladen. Über diesen Link gelangt man direkt zu der Komponente: https://goo.gl/CYdcD3

Um die Komponente zu installieren muss diese zuvor entpackt werden. Das Verzeichnis mit dem Namen tGoogleAnalyticsInput muss dann in den passenden Ordner (z. B. C:\Talend\CustomComponents) verschoben werden.

Innerhalb des Talend Studios muss dieser Pfad nun unter „Window“ ⇒ „Preferences“ ⇒ „Talend“ ⇒ „Components“ eingetragen werden:

Nach einem Klick auf „OK“ steht die Komponente in der Palette zur Verfügung.

Weitere Informationen zur Installation von Komponenten gibt es in der Talend Online-Hilfe: https://help.talend.com/reader/Jkvp187bw8jcmAsfn~skJQ/Cp2O1jasCRNKAlFAmCHSdw

Google Service Account erstellen

Diese Anleitung lehnt sich an die existierende Anleitung des Entwicklers der tGoogleAnalyticsInput Komponente Jan Lolling an. Die Original-Dokumentation gibt es hier: http://jan-lolling.de/talend/howtos/google_service_account/create-a-google-service-account.html

Ein Google Service Account wird zur Authentifizierung gegenüber der Google API benötigt. Es ist auch möglich einen persönlichen Account zu nutzen, jedoch empfehlen wir, einen dedizierten und generischen Benutzer für Talend als Service Account anzulegen.

Ein Service Account muss in der Developers Console von Google (https://console.developers.google.com) hinzugefügt werden. Nach der Anmeldung mit einem Google Account wird man direkt zu seinem Projekt weitergeleitet. Falls es noch kein eigenes Projekt gibt, kann man hier eines erstellen.

API aktivieren

Zuerst muss die passende API aktiviert werden. Dazu klicken wir auf „APIS UND DIENSTE AKTIVIEREN“.

Hier suchen wir nach „analytics“ und wählen dann die „Google Analytics Reporting API“ aus…

.. und klicken dann auf „AKTIVIEREN“.

Service Account erstellen

Im Menü wählen wir „Zugangsdaten“ und klicken im nächsten Fenster auf „Anmeldedaten erstellen“, um in der Dropdownliste „Dienstkontoschlüssel“ auszuwählen.

Über die Dropdownliste bei „Dienstkonto“ können wir auswählen, ob wir einen bestehenden Service Account mit dem neuen Key ausstatten möchten, oder ob wir einen neuen Service Account erstellen möchten. Wir wählen „Neues Dienstkonto“.

Konfiguration des Service Account Schlüssels

Als „Name des Dienstkontos“ sollte ein lesbarer und eindeutiger Name angegeben werden. Für die Open Source Komponente benötigen wir den „Schlüsseltyp“ als „P12“. Dieses Format hat keinerlei Nachteile gegenüber JSON. Beide Dateien enthalten den gleichen Schlüssel, in der JSON-Datei werden jedoch noch zusätzliche Informationen gespeichert.

Bei „Rolle“ kann ausgewählt werden, über welche Rolle(n) der neue Service Account innerhalb des aktuellen Projekts verfügt. Hier können wir „Projekt“ ⇒ „Bearbeiter“ auswählen.

Mit einem Klick auf „Erstellen“ wird der Service Account angelegt.

Service Account Key erstellen

Nach dem Klick auf „Erstellen“ kann direkt der p12-Key gespeichert werden. Auf diese Datei sollte gut aufgepasst werden, es gibt keine Möglichkeit diese nochmals herunterzuladen oder widerherzustellen!

Das Passwort ist immer das Gleiche („notasecret“) und muss nicht aufbewahrt oder gemerkt werden. In der Open Source Komponente wird das Kennwort automatisch hinzugefügt. Mit einem Klick auf „SCHLIESSEN“ wird man auf eine Liste aller Zugangsdaten weitergeleitet.

E-Mail-Adresse des Service Accounts herausfinden

Es muss die E-Mail-Adresse genutzt werden, um den neuen Service Account zum Google Analytics Account hinzuzufügen.

Daher klicken wir auf „Dienstkonten verwalten“.

Hier kann die E-Mail-Adresse des Service Accounts eingesehen werden:

Service Account in Google Analytics hinzufügen

Wir wechseln zu Google Analytics (https://analytics.google.com) und wählen das passende Konto aus von dem wir Daten über Talend Studio integrieren möchten.

Wir wählen den letzten Punkt im seitlichen Menü mit dem Namen „VERWALTUNG“.

Danach wählen wir das passende Konto aus und klicken auf „Nutzerverwaltung“.

Im sich öffnenden Fenster sehen wir alle Kontonutzer für dieses Konto. Wir klicken auf das Plus-Symbol in der rechten oberen Ecke, um den Service Account hinzuzufügen.

Danach geben wir die E-Mail-Adresse unseres Service Accounts ein, wählen die Berechtigung „Lesen und analysieren“ und klicken danach auf „ADD“.

ID der Datenansicht herausfinden

Zurück in der „VERWALTUNG“ wählen wir diesmal „Einstellungen der Datenansicht“ unter „DATENANSICHT“.

Dort finden wir die „ID der Datenansicht“, die wir später für unseren Talend Job benötigen.

 

Talend-Job

Im Talend Studio erstellen wir einen neuen Standard-Job und fügen die Komponente „tGoogleAnalyticsInput“ hinzu. Für die Ausgabe nutzen wir eine „tLogRow“ Komponente. Die „tGoogleAnalyticsInput“ muss jetzt mit Daten befüllt werden. Unter anderem benötigen wir dazu die zuvor erstellte E-Mail-Adresse und die Schlüssel-Datei.

Konfiguration von tGoogleAnalyticsInput

Die Komponente tGoogleAnalyticsInput verfügt über einige Optionen, die wir uns hier im Einzelnen genauer anschauen möchten.

 

Option

Erläuterung

Application Name

Muss nicht angegeben werden, wird jedoch von Google empfohlen. Hier kann ein Name der Applikation hinterlegt werden.

Authentication Method

Auswahl zwischen „Service Account“ oder „Client ID for native applications“.

Service Account Email

E-Mail-Adresse des Service Accounts.

Key File (*.p12)

Der Login über den Service Account funktioniert über einen privaten Schlüssel als Authentifizierung. Diese Datei kann heruntergeladen werden, wenn ein Service Account erstellt wird.

View-ID

Die ID der Datenansicht aus Google Analytics. Es handelt sich dabei um eine zehnstellige Nummer.

API Version

Derzeit wird Version 3 und 4 unterstützt. Version 4 hat einige neue Features, die aktuell noch nicht unterstützt werden, so dass Version 3 ebenfalls kompatibel ist.

Start Date

Jede Abfrage gegen Google Analytics benötigt die Angabe eines Zeitfensters. Das Datum muss als String im Formar „yyyy-MM-dd“ angegeben werden.

End Date

Ende des Zeitfensters. Wenn nur ein Tag betrachtet werden soll können Start- und Endzeit auf den gleichen Tag gesetzt werden. Das Datum muss als String im Formar „yyyy-MM-dd“ angegeben werden.

Use json report request template

Mit Hilfe des Google API Explorers können Abfragen erstellt und als JSON-Datei exportiert werden. Diese JSON-Datei kann hier als Template für die Abfrage hinterlegt werden.

Dimensions

Dimensionen können zum Gruppieren genutzt werden und gruppieren die Werte der Metriken. Mehrere Dimensionen können kommagetrennt angegeben werden. Weitere Informationen zu Dimensionen gibt es im nächsten Abschnitt.

Metrics

Messwerte, die ausgegeben werden sollen. Mehrere Metriken können kommagetrennt angegeben werden. Weitere Informationen zu Metriken gibt es im nächsten Abschnitt.

Filters (v3 style)

Filterkriterien

Segment (v3 style)

Segmente sind gespeicherte Filter innerhalb von Google Analytics. Da gespeicherte Filter immer einem persönlichen Account zugeordnet werden, müssen mit einem Service Account dynamische Segmente genutzt werden.

Sort By

Kriterien zur Sortierung der Ausgabe

Sampling Level

Google Analytics kann Daten anhand eines Beispiel-Datensatzes sammeln. Dieses Attribut gibt an, welche Art von Sampling genutzt werden soll.

Deliver Totals Data Set (as first row)

Die API stellt eine Summe der Datensätze bereit. Dies kann zum Berechnen von Prozentsätzen oder zur Prüfung der Ergebnisse genutzt werden. Wird das Häkchen gesetzt wird der totals record in der ersten Zeile ausgegeben.

Normalized output flows

Wenn dieser Wert auf „true“ gesetzt wird normalisiert die Komponente in zwei Outputs (Dimensionen und Metriken).

 

Weitere und tiefgehendere Informationen findet man in der offiziellen Dokumentation von Jan Lolling: http://jan-lolling.de/talend/components/help/tGoogleAnalyticsInput.pdf

Dimensionen und Messwerte

Jeder Bericht in Google Analytics besteht aus Dimensionen und Messwerten.

Dimensionen sind Attribute der Daten. Die Dimension Stadt gibt beispielsweise die Stadt an, in der die Sitzung gestartet wurde, etwa "Berlin" oder "München". Die Dimension Seite gibt die URL der aufgerufenen Seite an.

Messwerte sind Werte, die gemessen werden können. Der Messwert Sitzungen entspricht der Gesamtanzahl der Sitzungen. Der Messwert Seiten/Sitzung gibt die durchschnittliche Anzahl der pro Sitzung aufgerufenen Seiten an.

Ausführliche Informationen stellt Google auf einer Hilfe-Seite bereit: https://support.google.com/analytics/answer/1033861?hl=de

Gültige Kombinationen von Dimensionen und Messwerten

Nicht jeder Messwert kann mit jeder Dimension kombiniert werden. Alle Dimensionen und Messwerte haben einen Umfang (Nutzer-, Sitzung- oder Trefferebene). In den meisten Fällen ist nur die Kombination von Dimensionen und Messwerten mit demselben Umfang sinnvoll.

Google stellt dazu ein Referenztool für Dimensionen und Messwerte bereit: https://developers.google.com/analytics/devguides/reporting/core/dimsmets

Beispiele

Welche Browser werden genutzt?

Im ersten Beispiel sehen wir uns an, welchen Browser die Besucher unserer Seite nutzen. Dazu nutzen wir die Dimension „ga:browser“ und die Metrik „ga:users“:

Um welche Uhrzeiten sind die meisten Besucher da?

Im nächsten Beispiel wollen wir herausfinden zu welcher Uhrzeit die meisten Besucher auf unserer Webseite sind. Dazu verwenden wir die Dimensionen „ga:date“, „ga:hour“, „ga:minute“ und die Metrik „ga:users“. Die Sortierkriterien lauten „ga:date,-ga:users“.

Damit korrekt nach dem Datum sortiert werden kann, muss im Schema „Date“ als Datentyp angegeben werden. Das Pattern lautet „yyyyMMdd“.

Wie lange bleiben die Besucher auf meiner Seite?

Hier nutzen wir die Dimension „ga:sessionDurationBucket“ und die Metriken „ga:sessions“ und „ga:bounces“. Sortiert wird nach „-ga:sessions“.

An der Diskussion teilnehmen

0 Comments

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.