Probieren Sie es aus! – Durchführung einer Strukturanalyse mit Talend Data Quality

Durchführung einer Strukturanalyse

Zusammenfassung der Aufgabe

In Talend Studio sind viele unterschiedliche Arten von Analysen verfügbar, um ein Profiling für Ihre Daten durchzuführen. Mit einer Strukturanalyse erhalten Sie grundlegende Informationen zu Ihren Datenbanken und Katalogen, darunter die Anzahl der Tabellen, Reihen pro Tabelle, Indexe und Primärschlüssel. Dieser Überblick ist häufig der Ausgangspunkt für einen Vergleich separater Datenquellen. Außerdem lässt sich damit sicherstellen, dass Ihre Daten die Struktur haben, die zur Einhaltung der Datenqualitätsanforderungen erforderlich ist.

Nachdem Sie Talend Studio gestartet haben, stellen Sie eine Verbindung zum lokalen Datenbankserver her. Anschließend erstellen Sie anhand einer Strukturanalyse einen Überblick über die auf dem MySQL-Server gespeicherten Datenbanken und legen den Fokus dabei auf die CRM-Datenbank.

Ihre Trainingsumgebung verwendet eine einzige virtuelle Maschine (VM), in der die gesamte für dieses Tutorial erforderliche Software enthalten ist, inklusive Talend Studio und MySQL.

Talend Studio starten

  1. Um die virtuelle Maschine zu starten, öffnen Sie einen neuen Tab mit der gleichen Seite und klicken Sie auf diesen Link: START VM!

    Die VM wird in Ihrem Webbrowser geöffnet. Warten Sie, bis Windows startet.

    Daraufhin wird automatisch ein Skript gestartet. Sie können es schließen, indem Sie auf den X Button klicken.

  2. Wählen Sie unter Networks auf der rechten Seite Ihres Bildschirms Yes aus.

  3. Um Studio auf Ihrem VM Desktop zu starten, doppelklicken Sie auf die Verknüpfung Talend Studio.

  4. Daraufhin öffnet sich das Fenster „Talend Data Fabric“.

    Sie sehen ein Projekt mit dem Namen „DQ Essentials“.

    Klicken Sie auf Finish.

  5. Vergewissern Sie sich, dass der Startbildschirm erscheint.

  6. Klicken Sie auf den Button Start now! (eventuell müssen Sie dazu nach unten scrollen).

    Daraufhin öffnet sich das Fenster.

Entsprechend Ihren Einstellungen und den verfügbaren Tools kann Ihr Bildschirm davon abweichen.

Sie können die häufig verwendeten Bereiche sehen:

  • Das DQ Repository, in dem die Datenanalyse und Metadaten gespeichert sind, finden Sie oben links.
  • Der Arbeitsbereich, in dem Sie Jobs erstellen und bearbeiten, Analysen durchführen und Ergebnisse prüfen, befindet sich in der Mitte.

Metadaten zur Datenbankverbindung angeben

  1. Wenn Sie sich nicht bereits in der Perspektive „Profiling“ befinden, klicken Sie auf das Symbol Profiling.

  2. Geben Sie die Metadaten an. Im DQ Repository erweitern Sie Metadata.

    Klicken Sie mit der rechten Maustaste auf DB connections und klicken Sie anschließend auf Create Connection.

    So erstellen Sie eine Verbindung zu einer Reihe von Datenbanken, die bereits in Ihrer Trainingsumgebung konfiguriert sind.

    1. Geben Sie im Textfeld Name StagingDB ein.

    2. Klicken Sie auf Next.

    3. Klicken Sie in der Liste DB Type auf MySQL. Ändern Sie dabei nicht den Standardwert bei "Db Version“.

    4. Geben Sie diese Einstellungen ein:

        • Geben Sie bei Login und Password root ein.

        • Geben Sie bei Server localhost ein.

        • Lassen Sie das Textfeld bei DataBase leer (damit Sie auf alle im lokalen Server konfigurierten Datenbanken zugreifen können).

    5. Um Ihre Verbindungsinformationen zu prüfen, klicken Sie auf den Button Check.

    6. Klicken Sie im Fenster „Check Connection“ auf OK oder nehmen Sie die erforderlichen Änderungen vor und klicken Sie noch einmal auf Check.
    7. Klicken Sie auf Finish.

      Ihre neue Datenbankverbindung, StagingDB, erscheint im Repository.

      Im Arbeitsbereich werden die Konfigurationsinformationen für die Verbindung angezeigt.

      Ändern Sie bei Bedarf die Verbindungseinstellungen.

Eine Übersichtsanalyse zu den Verbindungen erstellen

  1. Erstellen Sie einen Ordner.
    1. Erweitern Sie im DQ Repository Data Profiling.

    2. Um einen Ordner für Ihre Analysen zu erstellen, klicken Sie mit der rechten Maustaste auf Analyses und wählen Sie Create Folder aus.

      Benennen Sie ihn CRM_Analysis und klicken Sie auf Finish.

  2. Erstellen Sie die Analyse.

    1. Klicken Sie mit der rechten Maustaste auf den Ordner CRM_Analysis und klicken Sie auf New Analysis.
    2. Erweitern Sie Structural Analysis und klicken Sie auf Connection Overview Analysis.

    3. Lesen Sie die Hintergrundinformationen und klicken Sie auf Next.
  3. Legen Sie die Analyse an.

    1. Jetzt identifizieren Sie die Analyse.

      Geben Sie im Textfeld Name Database_Server_Connection_Analysis ein.

    2. Klicken Sie auf Next.
    3. Wählen Sie eine Verbindung zum Analysieren. Erweitern Sie DB connections und klicken Sie auf StagingDB (die zuvor angegebenen Metadaten zur Datenbankverbindung).

    4. Klicken Sie auf Next.
    5. Sie können die Analyse auf bestimmte Tabellen oder Ansichten beschränken. Lassen Sie die Textfelder leer, damit die Analyse alle Informationen zur Datenbankverbindung bereitstellt.

    6. Klicken Sie auf Finish.

      Die Analyse ist im Arbeitsbereich offen und zeigt keine Ergebnisse.

Die Ergebnisse analysieren

  1. Führen Sie die Analyse durch.
    1. Klicken Sie im Arbeitsbereich oben auf das Symbol Run.

    2. Wenn die Analyse erfolgreich verläuft, erscheint der Tab Analysis Results.

      Sie können über die Tableiste im unteren Teil des Arbeitsbereichs zwischen den Tabs „Analysis Settings“ und „Analysis Results“ wechseln.

      Für alle Datenbanken werden im Bereich „Statistical Information“ globale Statistiken angezeigt.

  2. Sehen Sie sich den CRM-Katalog an.
    1. Um zusätzliche Informationen zu einem Katalog anzuzeigen, klicken Sie unter Statistical Information in der Spalte Catalog auf crm.

      Die Tabelle auf der linken Seite zeigt die Anzahl der Reihen, Primärschlüssel und Indexe für jede Tabelle im ausgewählten Katalog.

    2. Klicken Sie in der Tabelle links mit der rechten Maustaste in die Reihe country und klicken Sie dann auf View keys.

    Die Anzeige verändert sich in mehrfacher Weise. Indem Sie auf „View keys“ klicken, wechseln Sie von der Perspektive „Profiling“ zu „Data Explorer“. Ihre aktuelle Perspektive wird rechts oben angezeigt. Hier können Sie mit einem einzigen Klick zwischen den unterschiedlichen Perspektiven wechseln.

    Die neuen Elemente erscheinen jetzt in der Perspektive „Data Explorer“:

    • Die Ansicht „Database Detail“ öffnet sich unter den Analyseergebnissen. Sie zeigt grundlegende Informationen zum Primärschlüssel der Ländertabelle.

      Weitere Details zu dieser Tabelle finden Sie in den anderen Tabs in der Ansicht „Database Detail“.

    • Der Baum „Database Structure“ wird auf der rechten Seite des Fensters angezeigt.

      Die im Screenshot ausgewählte Datenbank ist die gleiche wie die in der Ansicht „Database Detail“ gezeigte Datenbank. Der Primärschlüssel der Tabelle wird mit einem besonderen Symbol dargestellt.

    • In den links oben angezeigten Tabs sehen Sie grundlegende Informationen zu den Verbindungen und zum SQL-Verlauf.

  3. Klicken Sie noch einmal auf den Button Profiling.

In diesem Tutorial haben Sie Talend Studio gestartet und mit Perspektiven gearbeitet. Sie haben Informationen zur Datenbankverbindung als Metadaten im DQ Repository erstellt und gespeichert. Zum Schluss haben Sie Strukturanalysen kennengelernt und erfahren, wie Sie eine Übersichtsanalyse zu Verbindungen erstellen und durchführen, um einen kompletten Überblick über die unterschiedlichen Arten von Informationen in Ihrer Datenbank zu erhalten.

Sie haben das Tutorial abgeschlossen.

| Zuletzt aktualisiert: August 12th, 2019