Erstellung von Metadaten für die Verknüpfung von Clustern aus Konfigurationsdateien

In diesem Tutorial erfahren Sie, wie Sie Hadoop-Cluster-Metadaten erstellen, indem Sie die Konfiguration aus den Hadoop-Konfigurationsdateien importieren.

Dieses Tutorial basiert auf Talend Data Fabric Studio Version 6 und einem Hadoop-Cluster: Cloudera CDH Version 5.4.

 

1. Erstellen Sie eine neue Hadoop-Cluster-Metadaten-Definition

    1. Wählen Sie die Ansicht Integration aus.

 

    1. Erweitern Sie im Project Repository den Bereich Metadata, klicken Sie mit der rechten Maustaste auf Hadoop Cluster und klicken Sie anschließend auf Create Hadoop Cluster, um den Assistenten zu öffnen.

 

    1. Geben Sie im „Hadoop Cluster Connection“-Assistenten im Feld „Name“ MyHadoopCluster_files ein. Geben Sie im Feld „Purpose“ Cluster connection metadata ein. Geben Sie im Feld „Description“ Metadata to connect to a Cloudera CDH 5.4 cluster ein und klicken Sie auf Next.

Der „Hadoop Configuration Import“-Assistent öffnet sich.

 

2. Importieren Sie die Konfiguration aus den Hadoop-Konfigurationsdateien

    1. Wählen Sie in der „Distribution“-Liste des „Hadoop Configuration Import“-Assistenten Cloudera und in der „Version“-Liste 4(YARN mode) aus. Es gibt verschiedene Möglichkeiten, um Hadoop-Cluster-Metadaten zu erstellen:

      – automatische Konfiguration durch Abruf der Konfiguration von Cloudera Manager oder Ambari
      – automatische Konfiguration durch den Import der Konfiguration aus den Hadoop-Konfigurationsdateien
      – manuelle Konfiguration
      .

 

    1. Um die dateibasierte Konfiguration zu wählen, wählen Sie im Feld „Option“ Import configuration from local files und klicken Sie auf Next .

3. Lokalisieren Sie den Ordner mit den Konfigurationsdateien und rufen Sie die Konfiguration auf

    1. Klicken Sie auf Browse …, gehen Sie auf C:/StudentFiles/HadoopConf und klicken Sie aufOK.

      Die Hadoop-Konfigurationsdateien müssen verfügbar und lokal zugänglich sein. Sie müssen den Speicherort des Ordners mit den Hadoop-Konfigurationsdateien angeben. Die Konfigurationsdateien werden geparst, um die Verbindungsdaten abzurufen.

      Der „Hadoop Configuration Import“-Assistent erkennt die Konfigurationsdateien und listet die entsprechenden Dienste auf. In diesem Tutorial behalten wir die Standardkonfiguration bei und erstellen Metadatendefinitionen für YARN und HDFS.
      .

 

    1. Um die Konfiguration in die erstellten Hadoop-Cluster-Metadaten zu importieren, klicken Sie auf Finish.

4. Erstellen Sie entsprechende Definitionen für YARN und HDFS

    1. Geben Sie im Authentifizierungsfeld des „Hadoop Cluster Connection“-Assistenten den Benutzernamen student ein und klicken Sie auf Check Services. Das Fenster „Checking Hadoop Services“ öffnet sich. Beachten Sie, dass der NameNode- und Ressourcenmanager-Status bei 100 Prozent liegt.

 

    1. Schließen Sie das „Checking Hadoop Services“-Fenster. Um das „Hadoop Cluster Connection“-Fenster zu schließen und die Metadaten zu erstellen, klicken Sie auf Finish.

5. Prüfen Sie die im Repository erstellten Metadaten

    1. Erweitern Sie im Repository den Bereich Hadoop Cluster. Die Metadatendefinition ist jetzt verfügbar.

 

    1. Erweitern Sie die Hauptdefinition mit dem Namen MyHadoopCluster_files, die dem YARN-Service entspricht. Erweitern Sie HDFS, das im Unterordner der zentralen MyHadoopCluster_files-Metaden gespeichert ist.

Die soeben erstellte Hadoop-Cluster-Metadaten-Definition kann ab sofort für Talend-Jobs genutzt werden.