Talend Big Data Basics

Talend stellt eine Entwicklungsumgebung bereit, die Benutzern das Interagieren mit zahlreichen Big Data-Quellen und -Zielen auch ohne das Schreiben von kompliziertem Code gestattet.

Der Grundkurs Talend Big Data ist eine Einführung in die Talend-Komponenten, die im Lieferumfang mit Big Data-Produkten enthalten sind.

Dauer2 Tage (14 Stunden)
ZielgruppeAlle, die Talend Studio für Big Data-Systeme verwenden möchten
VoraussetzungenAbschluss des Grundkurses Talend Data Integration oder des Fortgeschrittenen-kurses Talend Data Integration
Kursziele

Kursziele

Das lernen Sie in diesem Kurs:

  • Cluster-Metadaten manuell, aus Konfigurationsdateien oder automatisch erstellen
  • HDFS- und Hive-Metadaten erstellen
  • Verbindung mit Ihrem Cluster herstellen, um HDFS, HBase, Hive, Pig, Sqoop und MapReduce zu verwenden
  • Daten von HDFS lesen bzw. nach HDFS schreiben (HDFS, HBase)
  • Tabellen von HDFS lesen bzw. nach HDFS schreiben (Hive, Sqoop)
  • Auf HDFS mit Hive gespeicherte Tabellen bearbeiten
  • Auf HDFS mit Pig gespeicherte Daten bearbeiten
  • Auf HDFS mit Big Data Batch Jobs gespeicherte Daten bearbeiten
Kursablauf

Kursablauf:

Kontext für Big Data

  • Konzepte

Grundkonzepte

  • Projekt öffnen
  • Hadoop Cluster überwachen
  • Cluster-Metadaten erstellen

Daten von HDFS lesen bzw. nach HDFS schreiben

  • Datei auf HDFS speichern
  • Mehrere Dateien auf HDFS speichern
  • Daten von HDFS lesen
  • Sparse Datasets mit HBase auf HDFS speichern

Arbeiten mit Tabellen

  • Tabellen mit Sqoop importieren
  • Tabellen auf HDFS mit Hive erstellen

Daten und Tabellen auf HDFS bearbeiten

  • Hive-Tabellen mit Jobs bearbeiten
  • Profiling von Hive-Tabellen (optional)
  • Daten mit Pig bearbeiten
  • Daten mit Big Data Batch Jobs bearbeiten