Erstellung von Metadaten für die Verknüpfung von Clustern

In diesem Tutorial erfahren Sie, wie Sie Hadoop-Cluster-Metadaten automatisch durch eine Verbindung zu Cloudera Manager erstellen.

Dieses Tutorial basiert auf Talend Data Fabric Studio Version 6 und einem Hadoop-Cluster: Cloudera CDH Version 5.4.

1. Erstellen Sie eine neue Hadoop-Cluster-Metadaten-Definition

  1. Wählen Sie die Ansicht Integration aus.
  2. Erweitern Sie im Project Repository den Bereich Metadata, klicken Sie mit der rechten Maustaste auf Hadoop Cluster und klicken Sie anschließend auf Create Hadoop Cluster, um den Assistenten zu öffnen.
  3. Geben Sie im „Hadoop Cluster Connection“-Assistenten im Feld „Name“ MyHadoopCluster ein. Geben Sie im Feld „Purpose“ Cluster connection metadata ein. Geben Sie im Feld „Description“ Metadata to connect to a Cloudera CDH 5.4 cluster ein und klicken Sie auf Next.

Der „Hadoop Configuration Import“-Assistent öffnet sich.

2. Wählen Sie die automatische Konfigurationsmethode aus

  1. Wählen Sie in der „Distribution“-Liste des „Hadoop Configuration Import“-Assistenten Cloudera und in der „Version“-Liste 4(YARN mode) aus.

    Es gibt verschiedene Möglichkeiten, um Hadoop-Cluster-Metadaten zu erstellen:

    – automatische Konfiguration durch Abruf der Konfiguration von Ambari oder Cloudera Manager
    – automatische Konfiguration durch den Import der Konfiguration aus den Hadoop-Konfigurationsdateien
    – manuelle Konfiguration
    .
  2. Um die automatische Konfigurationsmethode zu wählen, wählen Sie im Feld „Option“ Retrieve configuration from Ambari or Cloudera und klicken Sie auf Next .

3. Stellen Sie eine Verbindung zu Cloudera Manager her

Cloudera Manager ist eine End-to-End-Anwendung für die Verwaltung von Cloudera-CDH-Clustern. Stellen Sie eine Verbindung zu Cloudera Manager her, um die Verbindungsdaten abzurufen und die entsprechenden Metadaten zu erstellen.

  1. Um eine Verbindung zu Cloudera Manager herzustellen, geben Sie die Anmeldedaten für Cloudera Manager ein. Geben Sie im Manager-URI-Feld (mit Port) http://clusterCDH54:7180 ein. Geben Sie in den Feldern Benutzername und Passwort admin ein und klicken Sie auf Connect.

    Der Cluster mit dem Namen Cluster 1 erscheint in der Liste der gefundenen Cluster.
    .
  2. Um die Konfiguration mit den gefundenen Clustern abzurufen, klicken Sie auf Fetch.

    Der Assistent erkennt die Konfigurationsdateien und listet die entsprechenden Dienste auf. In diesem Tutorial behalten wir die Standardkonfiguration bei und erstellen Metadatendefinitionen für YARN, HDFS, Hive und HBase. Die Definition für Spark ist nicht verfügbar.
    .
  3. Um die Konfiguration in die erstellten Hadoop-Cluster-Metadaten zu importieren, klicken Sie auf Finish.

4. Erstellen Sie Metadaten, die den aufgelisteten Diensten mit Ausnahme von Spark entsprechen

  1. Geben Sie im Authentifizierungsfeld des „Hadoop Cluster Connection“-Assistenten den Benutzernamen student ein und klicken Sie auf Check Services. Das Fenster „Checking Hadoop Services“ öffnet sich. Der NameNode- und Ressourcenmanager-Status liegt bei 100 Prozent
    .
  2. Schließen Sie das „Checking Hadoop Services“-Fenster. Um den „Hadoop Cluster Connection“-Assistenten zu schließen und die Metadaten zu erstellen, klicken Sie auf Finish.

5. Prüfen Sie die im Repository erstellten Metadaten

  1. Erweitern Sie im Repository den Bereich Hadoop Cluster.
    Die Metadatendefinitionen sind jetzt verfügbar.
  2. Erweitern Sie die Hauptdefinition mit dem Namen MyHadoopCluster, die dem YARN-Service entspricht. Erweitern Sie HBase, HDFS und Hive.

Die Metadatendefinitionen können ab sofort in Talend-Jobs genutzt werden.