Grundkurs Talend Big Data

Talend stellt eine Entwicklungsumgebung bereit, die Benutzern das Interagieren mit zahlreichen Big Data-Quellen und -Zielen auch ohne das Schreiben von kompliziertem Code gestattet.

Der Grundkurs Talend Big Data ist eine Einführung in die Talend-Komponenten, die im Lieferumfang mit Big Data-Produkten enthalten sind.

Dauer2 Tage
(14 Stunden)
Target audienceAlle, die Talend Studio für Big Data-Systeme verwenden möchten
PrerequisitesEinführung in Talend Studio, Grundkurs Talend Data Integration oder Fortgeschrittenenkurs Talend Data Integration
Course objectives

Das lernen Sie in diesem Kurs:

  • Cluster-Metadaten manuell, aus Konfigurationsdateien oder automatisch erstellen
  • HDFS- und Hive-Metadaten erstellen
  • Verbindung mit Ihrem Cluster herstellen, um HDFS, HBase, Hive, Pig, Sqoop und MapReduce zu verwenden
  • Daten von HDFS lesen bzw. nach HDFS schreiben (HDFS, HBase)
  • Tabellen von HDFS lesen bzw. nach HDFS schreiben (Hive, Sqoop)
  • In HDFS mit Hive gespeicherte Tabellen bearbeiten
  • In HDFS mit Pig gespeicherte Daten bearbeiten
  • In HDFS mit Big Data Batch Jobs gespeicherte Daten bearbeiten
Course agenda

Kontext für Big Data

  • Konzepte

Grundkonzepte

  • Projekt öffnen
  • Hadoop-Cluster überwachen
  • Cluster-Metadaten manuell erstellen
  • Cluster-Metadaten aus Hadoop-Konfigurationsdateien erstellen
  • Cluster-Metadaten mit einem Assistenten erstellen

Daten von HDFS lesen bzw. nach HDFS schreiben

  • Eine Datei in HDFS speichern
  • Mehrere Dateien in HDFS speichern
  • Daten von HDFS lesen
  • Geringe Datensätze mit HBase speichern

Arbeiten mit Tabellen

  • Tabellen mit Sqoop importieren
  • Tabellen mit Hive erstellen

Daten und Tabellen in HDFS bearbeiten

  • Hive-Tabellen mit Jobs bearbeiten
  • Profiling von Hive-Tabellen (optional)
  • Daten mit Pig bearbeiten
  • Daten mit Big Data Batch Jobs verarbeiten
  • Standard-Jobs in Batch Jobs migrieren

Anwendungsfall Clickstream

  • Anwendungsfall Clickstream: Resource Management mit YARN
  • Entwicklungsumgebung einrichten
  • Datendateien in HDFS laden
  • Logs analysieren
  • Statistiken berechnen
  • MapReduce-Jobs verstehen
  • YARN-Ressourcenanfragen mit Talend Studio konfigurieren