Datenintegration in einer AWS-Umgebung

Infrastructure-as-a-Service(IaaS)-Lösungen – wobei die bekannteste davon Amazon Web Services (AWS) ist – werden immer öfter von Unternehmen und Organisationen genutzt, die ihre Datenarchitekturen vereinfachen und Kosten unter Kontrolle halten möchten. Für ihre wachsende Beliebtheit gibt es einen einfachen Grund: Bei IaaS müssen Unternehmen nur für die Menge an Rechenressourcen, Datenspeichern und Netzressourcen zahlen, die sie wirklich benötigen.

AWS hat inzwischen einen Anteil von 40 Prozent am globalen IaaS-Markt und wird von Unternehmen und Organisation aus sämtlichen Branchen und Bereichen genutzt. Eine häufige Herausforderung bei der Migration zu einer AWS-Plattform sind dabei die komplexen Datenintegrationsprozesse. Mit den richtigen Informationen und Tools sind AWS-Datenintegrationsprojekte aber für jeden machbar.

In diesem Artikel nehmen wir die Grundlagen von ETL und Datenintegration in einer AWS-Umgebung unter die Lupe und erläutern, worauf Sie bei der Planung Ihrer AWS-Integrationsstrategie achten müssen.

Laden Sie How Leading Enterprises Achieve Business Transformation with Talend and AWS jetzt herunter.
HERUNTERLADEN

Was ist AWS?

2006 hat Amazon Web Services (AWS) zwei Flaggschiffprodukte herausgebracht: Simple Storage Service (S3) und Elastic Compute Cloud (EC2). Seitdem hat AWS Umfang, Tiefe und Anzahl seiner Produkte gesteigert und sich als massive Infrastructure-as-a-Service(IaaS)-Cloud-Plattform für Unternehmenskunden etabliert. Einem Bericht der Synergy Research Group zufolge hält AWS derzeit einen Anteil von 40 Prozent am globalen IaaS-Markt.

Die AWS-Plattform bietet ein breites Spektrum an Produkten, einschließlich Sicherheits-, Analyse- und Entwicklertools. Darüber hinaus stellt AWS auch spezialisiertere Services wie Spieleentwicklung, Virtual Reality und maschinelles Lernen bereit. Aufgrund ihrer Größe und Leistungsfähigkeit entscheiden sich immer mehr Unternehmen für eine Integration mit der AWS-Plattform. Für viele lautet die Frage nicht „ob“, sondern „wie“. Bevor Sie allerdings Ihre AWS-Integrationsstrategie umsetzen, müssen Sie verstehen, wie der Prozess funktioniert und welche Schritte am Anfang nötig sind.

ETL mit AWS

Ein gängiger Datenintegrationsprozess ist ETL (Extraktion, Transformation, Laden). Hierbei werden Daten aus ihrer Quelle entnommen, in ein nutzbares Format konfiguriert und am Zielort bereitgestellt. Bei dieser Konfiguration – bekannt als Datentransformation – werden die Daten sortiert, gefiltert, aggregiert, gemappt, bereinigt und angereichert, sodass sie gleich genutzt werden können, sobald sie an ihrem Zielort ankommen.

Es gibt verschiedene Strategien und Tools für die Ausführung von ETL mit AWS. Einige davon können Entwickler vollständig automatisieren, während andere manuelles Eingreifen erfordern und wieder andere sowohl automatisierte als auch manuelle Prozesse erfordern. Jede Methode variiert im Hinblick auf die Benutzerfreundlichkeit, Fertigstellungszeit, Replizierbarkeit und Komplexität der Daten. Dies gilt besonders für die Transformationsphase von ETL: Hier ist bei einigen Methoden oder Tools eine aufwendige Handcodierung erforderlich.

Bei der Auswahl der richtigen ETL-Tools für eine AWS-Integration sollte man vor allem diese zwei Faktoren beachten:

  • Ihr ETL-Tool muss in der Lage sein, das Schema der Quelldatenbank zu lesen, die Daten zu katalogisieren und automatisch Abfragen vorzubereiten, um Daten im AWS-Data-Warehouse zu transformieren.
  • Ihr Tool muss darüber hinaus in der Lage sein, automatisierte ETL-Jobs zu erstellen, zu konfigurieren und auszuführen. (Das ist wichtig, weil es sich bei ETL-Prozessen meist nicht um einzelne, isolierte Ereignisse handelt. Daher sollten ETL-Tools zum Einsatz kommen, die eine kontinuierliche Integration mit AWS ermöglichen und/oder wiederverwendbaren Code erstellen. Auf diese Weise muss man nicht jedes Mal, wenn man einen ETL-Job ausführt, von Neuem anfangen.)

Integrationstools

Bei der Datenintegration geht es nicht einfach nur darum, Daten von einer Datenbank in eine andere zu migrieren, sondern auch Workflows zu optimieren und die Kommunikation zwischen Systemen und Komponenten zu konfigurieren. Letzten Endes ist es der gesamte Integrationsprozess – und nicht nur die Datenmigration –, mit denen Sie die Voraussetzungen schaffen, um alles aus Ihren Daten herauszuholen. Datenintegrationstools sollten nicht nur die Datenmigration unterstützen, sondern darüber hinaus noch folgende Features bieten:

  • Integration von Workflows über verschiedene Systeme hinweg in AWS
  • Wiederverwendbarkeit und leichte Zugänglichkeit der zugrunde liegenden Integrationsworkflows
  • einfache Planung und Orchestrierung von Jobs
  • Schaffung einer einzigen Version der Wahrheit

Für die meisten Unternehmen und Organisationen ist eine ganzheitliche, cloudbasierte Datenintegrationslösung die effizienteste und kosteneffektivste Option. Sie unterstützt Sie dabei, AWS nahtlos mit Ihrer bestehenden Daten-Roadmap zu integrieren, und bietet alle nötigen Tools für zusätzliche Aufgaben wie Cloud-Analysen, Datenqualität und Echtzeit-Streaming. Mit einer Plattform, die all diese Aufgaben unterstützt, können Sie die Arbeit für Ihre Entwickler vereinfachen und einen echten Mehrwert für Ihr Unternehmen schaffen.

Ihr AWS-Data-Warehouse – was Sie erwarten können

Jetzt, da wir uns die Grundlagen der Datenintegration mit AWS angesehen haben, lassen Sie uns einen Blick darauf werfen, warum AWS mittlerweile eine so wichtige Rolle in der IT-Landschaft spielt. Was viele Unternehmen und Organisationen überzeugt, sind das umfassende Ökosystem und die breit gefächerten Funktionen von AWS. Doch das entscheidende Argument für AWS-Integrationen ist die praxisnahe Funktionalität. Die folgenden zwei Szenarien zeigen, welche Vorteile eine AWS-Integration bietet und warum eine solche Integration bei vielen Unternehmen ganz oben auf der Prioritätenliste steht.

Flexible Implementierungen für eine höhere Effizienz

Viele Unternehmen nutzen lokale Server, um Daten-Updates in EMR- und Redshift-Clustern in der Cloud bereitzustellen. Diese Cluster laufen kontinuierlich, um sicherzustellen, dass die Daten zur Verfügung gestellt werden können, sobald die Updates bereit sind. Dies hat allerdings den Nachteil, dass auch im Leerlauf Energie verbraucht und Kosten verursacht werden.

Ein alternativer Ansatz besteht darin, die Cluster nur dann zu aktivieren, wenn sie gebraucht werden. Mit einer Plattform für die Datenintegration, die eine Verbindung zu AWS herstellt, lassen sich Start- und Stopp-Funktionen konfigurieren, um einen einzelnen Job oder wiederkehrende Jobs auszuführen, die automatisch in bestimmten Intervallen laufen. Diese On-Demand-Infrastruktur lässt sich in wenigen Minuten implementieren, sodass Jobs nur bei Bedarf ausgeführt werden und bei Fertigstellung des Updates beendet werden. Somit bezahlen Unternehmen nur für die Zeit, in der die Cluster auch wirklich aktiv genutzt werden.

Hybride Datenintegrationen, um Unterbrechungen zu vermeiden

Sobald Ihre Organisation beschließt, Ihre Daten in die Cloud zu verlagern, sollten Sie sich Gedanken darüber machen, wie Sie Ihr aktuelles Data-Warehouse bis zur Fertigstellung der Integration pflegen. Wenn Sie AWS Redshift in Kombination mit Ihrem lokalen Data-Warehouse nutzen, können Sie eine hybride Datenspeicherlösung erstellen. Auf diese Weise können Sie die Kosten reduzieren und die Agilität verbessern, ohne den Betrieb zu beeinträchtigen. Ihr Datenintegrationstool sollte Konnektoren umfassen, um Ihre Daten auf nahtlose, vorhersehbare und sichere Weise mit AWS Redshift zu migrieren.

Die meisten cloudbasierten Lösungen stellen eine hybride Integrationsfunktion zur Verfügung. Datenintegrationstools sollten idealerweise eine Vielzahl von Konnektoren bieten, um – egal, wo Ihre Daten gespeichert sind – eine effiziente Jobausführung zu ermöglichen.

Praktische Beispiele der Datenintegration

Weiter oben haben wir uns damit befasst, wie die Integration mit AWS funktioniert, und uns einige Gründe angesehen, warum sich Organisationen für die Datenmigration entscheiden. Wir haben auch einen Blick auf den Prozess der Datenintegration geworfen und uns überlegt, wie die richtigen Datenintegrationstools für einen nahtlosen Übergang und eine bessere Effizienz sorgen können. Doch wie sieht der Datenintegrationsprozess in einem echten Unternehmen unter echten Bedingungen aus? Hier zwei Beispiele:

75 Prozent weniger Kosten dank AWS-Integration

Das Healthcare-Unternehmen Accolade hatte Zugriff auf enorme Mengen an Daten und wollte sie nutzen, um seinen Kunden personalisierte Services zu empfehlen und seine Prozesse zu optimieren. Die meisten dieser Daten lagen isoliert in veralteten Systemen vor. Accolade wusste, dass diese Daten transformiert, migriert und integriert werden mussten, um möglichst viel aus ihnen herauszuholen. Was das Unternehmen brauchte, war eine umfassende Lösung, um Daten zu mappen, zu entschlüsseln und einem Profiling zu unterziehen und anschließend für die Integration mit AWS in einen Data Lake zu migrieren.

Durch die Verknüpfung all seiner Daten mit Talend Big Data Integration konnte Accolade AWS Redshift, S3 und EMR nutzen, um die Effizienz zu optimieren und seinen Patienten eine bessere Versorgung zu bieten. Darüber hinaus konnte Accolade durch die Anreicherung seiner Daten und die Ausführung von Cloud-Analysen die Healthcare-Kosten für seine Patienten um jährlich 5 bis 8 Prozent und die Ausgaben für das Patienten-Onboarding um 75 Prozent senken.

Ansehen Migrating to a Cloud Data Warehouse Architecture with AWS Redshift jetzt herunter.
Jetzt ansehen

Umfassenderer Zugang zu Bildung dank Datenintegration

Mit ihrem nicht darlehensbasierten Unterstützungsmodell ist die University of Pennsylvania in der Lage, mehr Studenten einen Zugang zu hochwertiger Bildung zu bieten. Damit wird vermieden, dass Studenten hohe Schulden für ihr Studium aufnehmen. Ermöglicht wird dies durch ein umfangreiches Netzwerk von 300.000 aktiven Spendern.

Die Universität stand vor zwei Herausforderungen. Zum einen musste sie Daten aus mehreren CMR-Systemen an einem einzigen Ort integrieren. Zweitens wollte sie sichergehen, dass alle kostensparenden Maßnahmen genutzt werden, einschließlich Skalierbarkeit und flexibler Implementierung. Mit Talend Cloud konnte die University of Pennsylvania Daten aus mehreren Quellen integrieren und auswerten und somit wichtige Erkenntnisse gewinnen, um die Beziehung zu den Spendern zu verbessern. Das Ergebnis waren eine 7-prozentige Zunahme der Spenden und eine 18-prozentige Umsatzsteigerung.

Integration mit AWS

Die Planung und Umsetzung einer AWS-Integrationsstrategie klingt vielleicht schwierig, aber das muss nicht so sein. Mit den richtigen Integrationstools und Informationen kann jeder schnell und zuverlässig Integrationsprojekte starten.

Die Talend Cloud Integration Platform unterstützt lokale, cloudbasierte und hybride Integrationen mit AWS. Leistungsstarke grafische Tools, Integrationsvorlagen und über 900 Komponenten sorgen dabei für einen erfolgreichen Integrationsprozess.

Laden Sie eine kostenlose Testversion herunter und sichern Sie sich alles, was Sie brauchen, um heute noch mit AWS durchzustarten.

| Zuletzt aktualisiert: August 12th, 2019