Vollständige Ressourcenbibliothek

Erstellung von Metadaten für die Verknüpfung von Clustern aus Konfigurationsdateien

In diesem Tutorial erfahren Sie, wie Sie Hadoop-Cluster-Metadaten erstellen, indem Sie die Konfiguration aus den Hadoop-Konfigurationsdateien importieren.Dieses Tutorial basiert auf Talend Data Fabric Studio Version 6 und einem Hadoop-Cluster: Cloudera CDH Version 5.4.1. Erstellen Sie eine neue Hadoop-Cluster-Metadaten-DefinitionWählen Sie die Ansicht Integration aus.Erweitern Sie im Project Repository den Bereich Metadata, klicken Sie mit der rechten Maustaste auf Hadoop Cluster und klicken Sie anschließend auf Create Hadoop Cluster, um den Assistenten zu öffnen.Geben Sie im „Hadoop Cluster Connection“-Assistenten im Feld „Name“ MyHadoopCluster_files ein. Geben Sie im Feld „Purpose“ Cluster connection metadata ein. Geben Sie im Feld „Description“ Metadata to connect to a Cloudera CDH 5.4 cluster ein und klicken Sie auf Next.

Jetzt ansehen

Hadoop Hive

Talend, der Spezialist für Open-Source-Integration, bietet nahtlose Hadoop Hive-Unterstützung in Talend Open Studio for Big Data. Als erste reine Open-Source-Lösung für Big-Data-Management vereinfacht Talend Open Studio for Big Data die Arbeit mit Hadoop Hive und die Integration von Hive in die Datenflüsse Ihres Unternehmens.

Weitere Informationen

Sqoop

Talend, der führende Anbieter von Open-Source-Lösungen für Datenintegration, integriert Sqoop-Funktionen in eine einheitliche, vielfältige und benutzerfreundliche Big-Data-Integrationslösung und steigert so den Nutzen von Sqoop.

Weitere Informationen

ETL-Tests: Ein Überblick

ETL-Tests beziehen sich auf Prüfungen während des ETL-Prozesses, um die Genauigkeit von Daten zu validieren, zu verifizieren und sicherzustellen sowie Dubletten und Datenverluste zu verhindern. Erfahren Sie mehr über die 8 Phasen von ETL-Tests, 9 Arten von Tests, häufige Herausforderungen, wie Sie das beste Tool finden und mehr.

Weitere Informationen

Was ist Hadoop?

Hadoop ist ein Java-basiertes Open Source-Framework zum Speichern und Verarbeiten von Big Data. Die Daten werden dabei auf preiswerten Commodity-Servern gespeichert, die in Clustern verbunden sind. Sein verteiltes Dateisystem ist fehlertolerant und ermöglicht eine parallele Verarbeitung.

Weitere Informationen

Was ist MapReduce?

MapReduce ist ein Programmiermodell bzw. Muster im Hadoop-Framework, das für den Zugriff auf Big Data im Hadoop File System (HDFS) verwendet wird. Die Map-Funktion nimmt die Eingabedaten, erstellt Paare, verarbeitet sie und generiert einen weiteren Satz an Zwischenpaaren als Ausgabe.

Weitere Informationen

ELT vs. ETL: der Unterschied

Der Unterschied zwischen ETL und ELT liegt zum einen am Ort, an dem die Daten in Geschäftsinformationen umgewandelt werden, und an der Menge der Daten, die in Data-Warehouses gehalten wird. Erfahren Sie, wie sich diese Unterschiede auf die Geschäftsinformationen auswirken, welcher Ansatz sich am besten für Ihr Unternehmen eignet und warum die Cloud im Begriff ist, alles zu verändern.

Weitere Informationen

6 Trends für IT-Entscheider für 2017 und darüber hinaus

2016 war der Punkt erreicht, an dem die Hälfte der Weltbevölkerung mit dem Internet verbunden war*. Gleichzeitig wurde bei den angebundenen Maschinen die 6,4 Milliarden-Marke geknackt**. Das sind viele Daten aus vielen Quellen. Dieses White Paper von Bernard Marr vom Advanced Performance Institute identifiziert die Chancen und Gefahren, die mit 6 Schlüsseltrends in der IT zusammenhängen

HERUNTERLADEN

Hadoop im Unternehmen

Ist Hadoop endlich einsatzbereit?

Mehr als 1500 Business Intelligence (BI) und Data Management Experten wurden über ihre Erfahrungen im Umgang mit Hadoop befragt. Die Ergebnisse finden Sie hier in diesem umfangreichen Bericht über die Vorteile und mögliche Schwierigkeiten im Umgang mit Hadoop.

HERUNTERLADEN

Selfservice-Analysen

Viele Organisationen sind heute mit ihren Daten überfordert. Die meisten von ihnen schaffen es nicht einmal, einen Bruchteil der Daten zu analysieren, die sie selbst sammeln und erfassen. Um eine datengestützte Unternehmenskultur zu fördern, setzen viele Organisationen auf einen neuen Ansatz: die sogenannte Selfservice-Analyse. 

HERUNTERLADEN