Fortgeschrittenenkurs Talend Big Data – Spark Batch

Talend stellt eine Entwicklungsumgebung bereit, die Ihnen das Interagieren mit zahlreichen Big Data-Quellen und -Zielen auch ohne das Erlernen und Schreiben von kompliziertem Code gestattet.

Dieser Kurs behandelt Big Data Batch Jobs, die das Spark-Framework verwenden.

Dauer 1 Tag
(7 Stunden)
Target audience Alle, die Talend Studio für Big Data-Systeme verwenden möchten
Prerequisites Grundkurs Talend Big Data
Course objectives

Das lernen Sie in diesem Kurs:

  • Big Data Batch Jobs mit Spark-Frameworks erstellen
  • Daten von einer lokalen Datei in HDFS kopieren
  • Daten von MySQL in HDFS kopieren
  • Eine Hive-Tabelle erstellen und Daten aus HDFS in diese Tabelle kopieren
  • Tweets in HDFS importieren
  • Daten zusammenführen, sortieren und aggregieren
  • Mit Caches die Verarbeitung beschleunigen
  • Mit Hive QL Daten aus einer Hive-Tabelle abfragen
  • Mit Spark SQL Daten aus Spark-Datensätzen abfragen
Course agenda

Kontext für Spark

  • Konzepte

Einführung in Spark

  • Hadoop-Cluster überwachen
  • Entwicklungsumgebung einrichten
  • Grundlagen von Spark verstehen
  • Kundendaten analysieren

Anwendungsfall Stimmungsanalyse

  • Hadoop-Cluster überwachen
  • Entwicklungsumgebung einrichten
  • Tweets in HDFS laden
  • Tweets mit Spark verarbeiten
  • Job-Ausführung planen

Anwendungsfall Analyse herunterladen

  • Entwicklungsumgebung einrichten
  • Kunden in Hive laden
  • Analyse herunterladen
  • Mit Spark SQL Daten abfragen