Talend Big Data and Machine Learning Sandbox-Cookbook

Bevor wir uns mit den praktischen Aspekten beschäftigen und zeigen, welche Vorteile die Talend Big Data and Machine Learning Sandbox Ihrem Unternehmen bietet, möchten wir Sie bei der Installation unterstützen.

Was ist die Sandbox?

Die Big Data and Machine Learning Sandbox von Talend ist eine virtuelle Umgebung, die Docker-Container nutzt, um die Talend Real-time Big Data Platform mit einigen vorgefertigten, einsatzbereiten Beispielszenarien bereitzustellen.

Über die Links unten gelangen Sie zu einer Reihe von POCs (Proofs of Concept), die auf Anwendungsfällen aus der Praxis basieren und zeigen, wie sich Talend, Spark, NoSQL und Echtzeit-Messaging ganz einfach in Ihren Geschäftsalltag integrieren lassen. Egal, ob Batch-, Streaming- oder Echtzeit-Datenintegration – erfahren Sie, wie Sie mit Talend Ihre Big Data-Herausforderungen meistern und Ihr Geschäft für das Datenzeitalter rüsten können.

Sehen Sie sich die POCs an:

Mit diesen vorgefertigten und einsatzbereiten Beispielszenarios können Sie jetzt alle Vorteile Ihrer Sandbox nutzen:

EmpfehlungsengineIoT Prädiktive Wartung
Echtzeit-RisikobewertungData Warehouse-Optimierung

Was sind die Systemvoraussetzungen für die Sandbox?

Die Sandbox ist als Virtual Machine (VM) verfügbar und erfordert einen Virtual Machine-Player.

Diese VM-Player werden unterstützt:

  • VMWare
  • VMWare Fusion (für MAC-Nutzer)
  • VirtualBox

Für den Hostrechner empfehlen wir:

  • Mindestens 8–10 GB verfügbaren RAM
  • 50 GB verfügbaren Festplattenspeicher

Wenn Sie den Player Ihrer Wahl heruntergeladen und entsprechend der VM-Player-Installationsanleitung installiert haben, können Sie die Talend Big Data and Machine Learning Sandbox herunterladen und installieren. Anschließend können Sie sich die Sandbox-Demos (Links unten) ansehen, die Apache Kafka, Spark, Spark Streaming, Hadoop und NoSQL integrieren.

Wie richte ich die Sandbox ein und konfiguriere sie?

Bitte beachten Sie, dass Sie eine stabile und zuverlässige Internetverbindung für die Installation und Konfiguration der Talend Big Data and Machine Learning Sandbox brauchen. Wenn Sie die Online-Registrierung abgeschlossen und die gewünschte Sandbox-Downloaddatei gewählt haben, erhalten Sie eine kleine Download Manager Application (.dlm). Öffnen Sie die Anwendung für den restlichen Download der Sandbox. Die Talend Big Data and Machine Learning Sandbox ist als 6 GB-Open Virtualization Format Archive (.ova)-Datei verfügbar. Der Download könnte eine Weile dauern, je nachdem wie schnell Ihre Internetverbindung ist. Daher können Sie den Downloadprozess mit der Download Manager Application anhalten und wiederaufnehmen.

Wenn Sie die .ova-Datei heruntergeladen und auf Ihrer lokalen Festplatte (C:/TalendSandbox) gespeichert haben, folgen Sie den Anweisungen für den Import von VirtualBox oder VMWare auf dem Virtual Machine Player und der entsprechenden von Ihnen verwendeten Sandbox-Datei.

VirtualBox

  1. Öffnen Sie die VirtualBox-Anwendung.
  2. Wählen Sie in der Menüleiste File > Import Appliance…
  3. Gehen Sie zur .ova -Datei, die Sie heruntergeladen haben. Wählen Sie die Datei aus und klicken Sie auf Next.
  4. Akzeptieren Sie die standardmäßigen Anwendungseinstellungen und klicken Sie dazu auf

Talend Machine Learning Sandbox – Virtualbox importieren

VMWare

  1. Öffnen Sie die VMware-Player-Anwendung.
  2. Klicken Sie auf „Open a Virtual Machine“.
  3. Gehen Sie zur .ova -Datei, die Sie heruntergeladen haben. Wählen Sie die Datei aus und klicken Sie auf Open.
  4. Wählen Sie den Speicherpfad für die neue Virtual Machine (z. B. C:/TalendSandbox/vmware) und klicken Sie dann auf Import.

Talend Machine Learning Sandbox – VMWare importieren

Die Talend Big Data and Machine Learning Sandbox Virtual Machines sind für 8 GB RAM und 2 CPUs vorkonfiguriert. Eventuell müssen Sie diese Einstellungen an Ihren PC anpassen. Um die MapR-Beispiele auszuführen, empfehlen wir, die VM-RAM-Einstellung auf 10 GB oder ggf. mehr zu erhöhen.

Womit muss ich rechnen, wenn ich die VM das erste Mal starte?

Wenn Sie die Talend Big Data and Machine Learning Sandbox das erste Mal starten, lädt die Virtual Machine beim Start zuerst eine Web-Landing Page, die das Sandbox-Setup trackt. Das kann 15–30 Minuten dauern, je nach Internetverbindung und Netzwerkverkehr. Nach kurzer Zeit werden Sie gebeten, eine Hadoop-Plattform auszuwählen. Sie haben die Wahl zwischen Cloudera, Hortonworks oder MapR. Sie können sich die Sandbox-Umgebung auch anschauen, ohne eine Hadoop-Plattform auszuwählen. Wenn Sie sich irgendwann entscheiden, eine Plattform auszuwählen oder sogar zu einer anderen Plattform zu wechseln, können Sie jederzeit auf „Choose a Hadoop Platform“ oben rechts auf der Landing Page klicken, um die verfügbaren Plattformen abzurufen.

Sandbox Big Data-Plattform auswählen

Bitte haben Sie während des Ladeprozesses Geduld und warten Sie ab, bis der Buildingprozess der Sandbox abgeschlossen ist. Öffnen Sie Talend Studio nicht während des Buildingprozesses. Sobald Sie die Mitteilung erhalten, dass die Sandbox einsatzbereit ist, können Sie anfangen, in der virtuellen Umgebung zu arbeiten.

Sandbox ist bereit

Wenn die Sandbox offiziell einsatzbereit ist, können Sie auf zusätzliche Ressourcen und Demoinhalte zugreifen. Scrollen Sie dazu auf der Landing Page herunter. Hier haben Sie Zugriff auf demospezifische Webanwendungen mit Quick Start-Anleitungen, um die Demos in der Sandbox auszuführen. Über „Hadoop Cluster“ erhalten Sie auch Zugriff auf die Hadoop Cluster Resource Manager-WebUI und über „HDFS Browser“ auf die HDFS-WebUI.

In der MapR-Distribution leitet Sie der HDFS Browser zum MapR Control System (MCS), wo Sie Ihre Datenmengen, -tabellen und -streams einsehen können. Um darauf in Firefox zuzugreifen, müssen Sie ein Ausnahmezertifikat hinzufügen.

Wie starte ich Talend Real-time Big Data Studio?

Ihre Sandbox ist jetzt einsatzbereit und Sie können Talend Studio starten. Klicken Sie dazu auf das Talend-Symbol auf der linken Leiste Ihres Desktops. Befolgen Sie diese Schritte das erste Mal, wenn Sie die Sandbox ausführen:

  1. Zuerst müssen Sie eine Verbindung konfigurieren. Klicken Sie auf Manage Connection, geben Sie Ihre E-Mail-Adresse ein und klicken Sie dann auf OK.
  2. Anschließend müssen Sie das Projekt auswählen, das Sie öffnen möchten. Entsprechend der gewählten Big Data-Plattform steht Ihnen Folgendes zur Auswahl:
    • CLOUDERA_DEMOS
    • HORTONWORKS_DEMOS
    • MAPR_DEMOS
    • LOCAL_DEMOS (falls Sie keine Big Data-Plattform geladen haben)

Machine Learning Sandbox – Projekt auswählen

Hinweis: Falls Sie mehrere Big Data-Plattformen heruntergeladen haben, stehen Ihnen mehrere Projekte zur Verfügung. Treffen Sie die passende Wahl für die ausgewählte Big Data-Plattform.

  1. Sobald Talend Studio geöffnet wird, erscheint der Willkommensbildschirm. Schließen Sie den Willkommensbildschirm. Daraufhin sehen Sie ein Dialogfenster für die Installation zusätzlicher Pakete. Sie müssen Required third-Party libraries markiert lassen und außerdem Optional third-party libraries auswählen und auf Finish klicken.

  1. Akzeptieren Sie alle Drittanbieterlizenzen, die akzeptiert werden müssen. Klicken Sie auf den Radio-Button „I accept the terms of the selected license agreement“ und danach auf Accept All.
    Sandbox Talend Studio – Lizenz akzeptieren
  2. Warten Sie, bis die Downloads abgeschlossen sind, bevor Sie fortfahren. (Haben Sie Geduld, das kann eine Weile dauern).

| Zuletzt aktualisiert: August 7th, 2019